CN111385175A - 本地化虚拟个人助理 - Google Patents
本地化虚拟个人助理 Download PDFInfo
- Publication number
- CN111385175A CN111385175A CN201911377200.8A CN201911377200A CN111385175A CN 111385175 A CN111385175 A CN 111385175A CN 201911377200 A CN201911377200 A CN 201911377200A CN 111385175 A CN111385175 A CN 111385175A
- Authority
- CN
- China
- Prior art keywords
- input
- command
- voice
- venue
- locally
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 47
- 230000004044 response Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 abstract description 33
- 230000008520 organization Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- PSFDQSOCUJVVGF-UHFFFAOYSA-N harman Chemical compound C12=CC=CC=C2NC2=C1C=CN=C2C PSFDQSOCUJVVGF-UHFFFAOYSA-N 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
- H04L12/282—Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1818—Conference organisation arrangements, e.g. handling schedules, setting up parameters needed by nodes to attend a conference, booking network resources, notifying involved parties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W64/00—Locating users or terminals or network equipment for network management purposes, e.g. mobility management
- H04W64/003—Locating users or terminals or network equipment for network management purposes, e.g. mobility management locating network equipment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
一个实施方案阐述了一种用于经由本地化助理应用程序控制某一场所处的装置的技术,所述本地化助理应用程序在本地处理输入以控制所述装置。所述技术包括:检测某一场所处的装置;将所述装置与至少一个装置命令相关联;接收输入;在本地处理所述输入以确定与所述输入相关联并且包括在所述至少一个装置命令中的装置命令;以及致使所述装置根据所述装置命令执行至少一个操作。
Description
相关申请的交叉引用
本申请要求于2018年12月28日提交的且序列号为62/786,256的标题为“LOCALIZED VIRTUAL PERSONAL ASSISTANT”的美国临时申请的权益。本申请的主题特此整体以引用方式并入本文。
技术领域
所公开的各个实施方案总体上涉及计算装置,并且更具体地涉及本地化虚拟个人助理。
背景技术
会议是从简单的面对面接触演变而来的。用户已经广泛接受了用以增强会议的技术。无论技术是用于操纵会议环境,用于与远程用户举行会议和/或用于在会议期间共享数字信息,技术增强的会议现在都是常态,特别是在组织环境中。
广泛采用用以增强会议的技术也带来了挑战。一个这样的挑战是操作会议场所处的各种装置的巨大困难。例如,会议场所可能具有视频会议系统,所述视频会议系统具有显示器、相机、电话和用于访问远程视频会议的网络装置,以及用于操纵会议场所的环境的系统诸如恒温器和电动遮光帘。会议场所可用的装置数量之多而又不熟悉,可能会使用户不知所措。
针对操作会议场所处的装置的这种挑战的一种可能的解决方案是经由语音助理来操作装置。例如,可以实现常规的语音助理(其示例包括Amazon.com,Inc.的和Google LLC的ASSISTANT)来操作会议场所处的装置。然后,用户可以经由发给语音助理的语音命令来操作装置。然而,该解决方案的缺点是常规语音助理是基于云的通用系统。常规的语音助理通常需要通过互联网与云系统之间的基于云的处理和数据传输。常规的语音助理通常还包括持续监听环境中的话语以及保留检测到的话语。这就存在将会议中所讲的敏感信息暴露给第三方的风险。由于互联网上的传输和基于云的远程处理,这还会给装置操作带来延迟。另外,常规的语音助理通常被设计为执行许多不同的功能。识别许多不同功能中要执行的功能的处理也增加了延迟。此外,由于常规的语音助理通常需要基于云的处理和互联网传输,因此当与互联网的连接在会议场所处无法正常工作时,语音助理可能不可用。
如前所述,需要用于操作会议场所处的装置的更有效的技术。
发明内容
一个实施方案阐述了一种用于控制某一场所处的装置的方法。所述方法包括:检测某一场所处的第一装置;将所述第一装置与至少一个装置命令相关联;接收输入;在本地处理所述输入以确定与所述输入相关联并且包括在所述至少一个装置命令中的第一装置命令;以及致使所述第一装置根据所述第一装置命令执行一个或多个第一操作。
另外的实施方案尤其提供了被配置为实现上文阐述的方法的一种系统和一种或多种非暂时性计算机可读介质。
所公开的技术的优点和技术改进在于,可以经由本地语音助理来操作某一场所处的装置和系统,而无需基于互联网和/或基于云的处理。因此,与使用常规语音助理的操作相比,可以经由语音输入以减少的延迟来操作所述场所处的装置和系统。此外,本地语音助理不需要存留或保留所捕获的语音或话语数据来进行其操作。在未存留话语或语音数据的情况下,与常规的语音助理相比,可以减少或消除可能包含在话语或语音数据中的私人信息的泄漏。
附图说明
为了能够详细地理解各个实施方案的上述特征,可以参考多个实施方案来更具体地描述以上已简要概述的发明概念,这些实施方案中的一些在附图中示出。然而,应注意,附图仅仅示出了发明概念的典型实施方案,因此决不应被认为是对范围的限制,并且存在其他同样有效的实施方案。
图1示出了根据各个实施方案的一个或多个方面的计算环境;
图2示出了图1的计算环境中的控制装置的框图,所述控制装置被配置为实现各个实施方案的一个或多个方面;
图3A至图3C示出了根据各个实施方案的一个或多个方面的用于在本地化计算环境中命令一个或多个装置的示例性过程的流程图;以及
图4示出了根据各个实施方案的一个或多个方面的用于在本地化计算环境中命令装置的方法步骤的流程图。
具体实施方式
在以下描述中,阐述许多特定细节以提供对各个实施方案的更透彻理解。然而,对本领域的技术人员来说将显而易见的是,可以在没有这些特定细节中的一者或多者的情况下实践发明概念。
图1示出了根据各个实施方案的一个或多个方面的计算环境100。计算环境100包括组织118内的场所102。在各个实施方案中,场所102可以是与组织118(例如,企业)相关联的空间(例如,会议室或其他房间、大厅区域、门厅等)。在计算环境100中,外部环境120位于组织118的外部。
场所102包括与场所102相关联的一个或多个装置和系统101。在各个实施方案中,装置和系统101(以下称为装置101)物理上位于场所102之中或之处。可以操作装置101以操纵场所102的环境、将信息和内容传递到场所102以及各种其他功能。例如,场所102(其为会议室)处的装置101可以包括显示装置108(例如,电视)、相机110、电话装置112、恒温器114和遮光帘控制系统116。显示装置108可以向场所102处的用户(例如,会议的参与者)显示内容(例如,展示、远程会议参与者的视频)。相机110可以捕获场所102的环境的图像(例如,以便显示在显示装置108上,以传输到远程会议场所)。电话112可以拨打电话号码以建立电话呼叫(例如,进入主持的会议拨入、拨号至会议参与者)。恒温器114可以检测场所102的温度和/或控制加热和/或冷却系统(例如,HVAC系统、空调节、加热系统),以便操纵场所102的温度。遮光帘系统116可以在场所102处操作(例如,升高或降低)用于透明面板(例如,窗户、透明玻璃墙)的一个或多个帘布、百叶窗等。应当理解,虽然装置101如图1中所示包括显示器108、相机110、电话112、恒温器114和遮光帘系统116,但装置101可以包括更多或更少的装置。
可以经由场所102处的另一装置(具体地,控制装置106)来控制、命令或操作场所102处的装置101中的每一个。在各个实施方案中,装置101中的每一个实现一个或多个协议,所述一个或多个协议有利于与控制装置106进行通信、从控制装置106接收控制信号以及响应于控制信号执行一个或多个操作。更一般地,装置101可以与控制装置106进行通信、从控制装置106接收控制信号,并且经由任何技术上可行的技术或协议(例如,高清晰度多媒体接口(HDMI)上的消费性电子控制(CEC))来响应控制信号。所述技术和/或协议可以是标准的、可以是非专有的或专有的,并且可以特定于装置的某个品牌或制造商或者可以由跨不同品牌或制造商的装置实现。
场所102包括控制装置106。控制装置106通信地耦合到装置101中的每一个。控制装置106可以经由有线连接(例如,HDMI、通用串行总线(USB))和/或无线连接(例如,蓝牙、Wi-Fi等)通信地耦合到装置101中的每一个。控制装置106对用于与装置101中可能包括的各种装置进行通信并控制它们的多种技术和协议有一定了解。例如,控制装置106可以包括命令库或命令数据库(例如,图2的命令库256),所述命令库或命令数据库列出了可根据上述装置控制技术和协议传送给装置的可能的命令和对应的控制信号。此外,控制装置106可以包括存储关于装置101中的每一个的信息的数据库(例如,图2的装置信息254)。对于场所102处的给定装置101,关于装置101的信息可以包括但不限于:装置的标识符、场所102内的装置的定位或位置的指示、装置是什么或做什么的指示(例如,装置类型或分类)、控制装置106和装置之间的耦合的标识(例如,装置所耦合的有线连接或无线连接)以及用于与装置进行通信并控制装置的协议的标识(例如,如果装置识别并响应于CEC信号,则所述装置的装置信息可以指示这一点)。
控制装置106可以执行装置发现以检测场所102处的装置101并收集有关所述装置的信息以存储在装置101的数据库中。所述发现可以在控制装置106的初始设置时和/或此后的任何时间执行(例如,当向场所102添加新的装置时、当从场所102移除装置时、周期性地、在用户请求时)。例如,控制装置106可以监听由装置101广播的装置标识信号。除此之外或另选地,控制装置106可以广播信号并监听来自装置101的确认。更一般地,控制装置106和装置101可以使用任何技术上可行的技术和/或协议来发现彼此和/或彼此宣布它们的存在,所述技术和/或协议可以与用于如上所述接收和响应于信号的相同技术和/或协议相关联。例如,控制装置106和装置101两者都可以实现握手协议,所述握手协议允许控制装置106和装置101彼此发现并建立通信。在各个实施方案中,控制装置106对装置101的发现限于场所102处的装置,即控制装置106与场所102相关联并因此限于发现与场所102相关联(例如,位于所述场所之处或之内)的装置101。此外,在各个实施方案中,在装置发现期间,控制装置106可以确定是否可以经由控制装置106控制所发现的装置,即控制装置106确定其命令库是否包括与所发现的装置实现的协议相关联的命令。如果命令库不包括用于该协议的命令,则控制装置106可以忽略该发现的装置或获得用于该协议的命令(例如,从内部系统160或外部系统170)并使用所获得的命令来更新命令库。
控制装置106可以经由控制信号来控制装置101。例如,控制装置106可以将控制信号传输到显示装置108,以便命令场所102处的显示装置108执行一个或多个操作(例如,打开电源或关闭电源、切换到特定输入、更改到特定频道、将音量调高或调低)。类似地,控制装置106可以将控制信号传输到遮光帘系统116,以便命令遮光帘系统116将场所102处的某些遮光帘降低或升高到一定水平。控制装置106可以经由任何技术上可行的技术或协议(例 如,高清晰度多媒体接口(HDMI)上的消费性电子控制(CEC))来传输控制信号以控制装置101,并且装置101可以经由对应的技术或协议来响应于所述控制信号。如上所述,控制装置106可以包括命令库,所述命令库根据此类技术和协议存储可能的命令,并且控制装置106可以控制被配置为根据这些技术和协议中的至少一种来识别这些可能命令的至少一部分的任何装置101。
在一些实施方案中,通过控制一个或多个装置101,控制装置106为场所102设置一项或多项配置。也就是说,控制装置106通过控制多个装置101来为场所102建立配置(例如,环境配置、内容输入/输出配置、通信配置、它们的任意组合)。在一些实施方案中,可以设置环境配置以操纵或调节场所102的物理环境(例如,温度、进入场所102的日光量、相对于周围环境的私密性)。可以设置内容输入/输出配置以操纵或调节场所102内的内容输入/输出(例如,显示器108准备显示来自某个输入的内容、音频输出的音量)。可以设置通信配置以操纵或调节场所102处的通信(例如,电话112拨出到某个电话号码、访问由外部系统170托管的在线会议空间)。例如,控制装置106可以通过命令显示装置108打开电源来更改场所102的内容输入/输出配置。类似地,控制装置106可以经由多个控制信号来更改场所102的一项或多项配置,诸如命令显示装置108打开电源、命令恒温器114调整温度、命令遮光帘系统116降低遮光帘,以及命令相机110捕获图像。
控制装置106可以在场所102处响应于用户104输入的指令或命令来控制一个或多个装置101。用户104可以经由任何技术上可行的技术(例如,图形用户界面、语音输入)来向控制装置106输入用于控制装置101的一个或多个指令。例如,控制装置106可以包括输入装置,用户104可以经由所述输入装置输入指令或命令。在各个实施方案中,可以经由话语进行输入,即所述输入是语音输入。控制装置106可以捕获用户104经由麦克风107说出的话语并处理所述话语以基于语音命令来识别话语和命令装置101中的语音命令。
在一些实施方案中,控制装置106可以经由一个或多个网络122通信地耦合到场所102外部的系统。场所102外部的那些系统可以在组织118内部或外部。例如,控制装置106可以经由组织118内部的第一网络122(例如,局域网)通信地耦合到内部系统160,并且经由组织118外部的第二网络122(例如,互联网)耦合到外部系统170。控制装置106可以访问内部系统160以获得或存储信息(例如,从数据库获得或存储在数据库中)。从内部系统160获得的信息可以包括关于装置101的信息(例如,安装在组织118内的各个场所处的装置的数据库)、用户104的信息以及指示针对组织118内的场所而安排的事件的日历信息。控制装置106可以访问外部系统170以访问与场所102处的事件相关联的在外部系统170处托管的源(例如,经由超链接的web会议空间)。如上所述,访问内部系统160或外部系统170可以是为场所102设置配置的一部分(例如,访问web会议空间链接为场所102设置通信配置)。
如上所述,场所102的配置可以包括一个或多个装置101的控制或命令。可以为场所102设置的配置可以是预定义的或用户定义的。定义的配置可以指定装置101、与所述配置相关联的操作以及任选地操作执行顺序(如果涉及多个操作的话)。例如,配置可以指定将恒温器114调整为华氏75度的单个操作。作为另一示例,配置可以指定多个操作,所述多个操作包括:打开显示器108的电源,将显示器108处的输入切换为第一HDMI输入,从内部系统160获得电话会议拨入号码,以及使用电话112拨打所述拨入号码。用户可以以任何技术上可行的方式(例如,经由由控制装置106上的应用程序提供的图形用户界面)来定义配置。更一般地,与一个或多个装置命令相关联的输入可以是预定义的或用户定义的。也就是说,可以对激活提供给装置101的一个或多个命令的集合的输入进行定义。例如,语音输入(例 如,语音命令)可以与一个或多个装置101以及一个或多个操作、以及任选地操作的执行次序相关联。
在各个实施方案中,进入控制装置106中的用户输入可以是语音输入(例如,话语),并且控制装置106识别语音输入中的语音命令。控制装置106可以包括麦克风107,所述麦克风被配置为捕获场所102处的音频,包括用户104说出的话语。控制装置106处理所捕获的话语以识别话语中的词和短语并且在词和短语当中识别表示命令的唤醒词、所述命令以及与所述命令相关联的任何参数。控制装置106可以响应于所述命令而执行一个或多个操作和/或向装置101传输控制信号。
在各个实施方案中,控制装置106中的命令库除了包括与各种协议相关联的可能的装置命令之外,还可以包括输入(例如,输入装置输入、语音输入、手势输入)与装置和/或配置之间的关联。语音输入可以包括语音命令,所述语音命令包括一个或多个词和/或短语。例如,命令库可以将具有短语“打开电视(Turn on the TV)”的语音命令映射到装置命令以打开显示器(例如,显示器108)的电源。作为另一示例,命令库可以将语音命令“开始会议(Start the meeting)”映射到多操作配置或装置命令集,所述装置命令集被定义为包括以下操作:打开显示器108的电源,将显示器108处的输入切换为第一HDMI输入,从内部系统160获得电话会议的拨入号码,以及使用电话112拨打所述拨入号码。命令库可以将给定装置命令、装置命令集或配置与语音命令以及语音命令的多种变型形式或等同形式(例如,同义词、多种语言的等同形式)相关联。因此,用户104可以说出另一种语言的同义词或等同形式,就像说出语音命令一样。另外,命令库还可以指定可在语音命令之前的一个或多个唤醒词来表示语音命令。控制装置106可以使用命令库中的这些关联和规范,以任何技术上可行的方式(例如,话语到文本处理、自然语言处理、基于机器学习的话语处理等)处理发声以检测唤醒词和语音命令。此外,控制装置106处理发声以在本地识别唤醒词和语音命令。也就是说,控制装置106不将捕获的发声发送到其他系统进行处理。
在一些实施方案中,场所102是组织118内的会议室。控制装置106经由装置发现对会议室中的装置101有一定了解,并且被配置为基于用户输入来命令装置101(例如,以便配置会议室以供用户104在会议室中举行会议)。控制装置106在本地处理用户104说出的话语,以识别话语中的语音命令并且响应于语音命令来命令装置101。
图2示出了图1的计算环境100中的控制装置106的框图,所述控制装置被配置为实现各个实施方案的一个或多个方面。控制装置106是适合于实践各个实施方案的一个或多个方面的计算装置。控制装置106被配置为运行驻留在存储器216中的语音助理应用程序250以及任选地运行装置发现应用程序252。应注意,本文描述的控制装置106是说明性的,并且任何其他技术上可行的配置都落入各个实施方案的范围内。
如所示,控制装置106包括但不限于互连件(总线)212,所述互连件连接一个或多个处理器204、耦合到一个或多个输入/输出(I/O)装置210的输入/输出(I/O)装置接口208、存储器216、存储装置214和网络接口206。处理器204可以是任何合适的处理器,诸如中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、任何其他类型的处理单元或处理单元的组合,诸如被配置为结合GPU进行操作的CPU。一般来讲,处理器204可以是能够处理数据和/或执行软件应用程序的任何技术上可行的硬件单元,包括语音助理应用程序250和装置发现应用程序252。
I/O装置210可以包括能够提供输入和/或输出的装置以及用于通信和环境操纵的装置。场所102处的装置101可以包括多个I/O装置210。在各个实施方案中,I/O装置210包括一个或多个显示器232(例如,显示装置108)、一个或多个相机234(例如,相机110)、一个或多个音频扬声器236(和/或类似的音频输出装置,诸如耳机)、一个或多个麦克风238(例如,麦克风107)、一个或多个环境系统或装置240(例如,恒温器114、遮光帘系统116)、一个或多个通信装置242(例如,电话112)、一个或多个传感器244和一个或多个输入装置246。I/O装置210可以经由有线连接(例如,HDMI、USB)和/或无线连接(例如,蓝牙、Wi-Fi)耦合到I/O装置接口208。
显示装置232可以向场所102处的用户104显示视觉内容(例如,图像、视频等)。在各个实施方案中,显示装置232是被配置为输出从源(例如,控制装置106或通信耦合到显示装置232的另一装置)所接收的视觉内容的显示装置(例如,液晶显示(LCD)屏、发光二极管(LED)显示屏、有机发光二极管(OLED)显示屏、二维或三维(例如,全息)投影系统等)。在一些实施方案中,场所102可以包括多个显示装置232。
相机234可以捕获场所102的环境的图像。在各个实施方案中,相机234包括但不限于任何数量和组合的红外相机、RGB相机和提供多个视角的相机阵列。
音频扬声器236输出从源(例如,通信地耦合到扬声器236的输入端的计算装置)所接收的音频信号。音频扬声器236可以以多种形式实现,包括但不限于分立的扬声器装置和装置上的扬声器(例如,与显示装置232集成的扬声器)。在一些实施方案中,扬声器236可以包括定向扬声器和/或扬声器阵列。
麦克风238捕获在场所102的环境中出现的声波以从所捕获的声波生成音频信号。麦克风238可以包括全向麦克风、麦克风阵列或能够将声波转换成电音频信号的其他换能器或传感器。麦克风238可以设置在控制装置106处或与控制装置分开。麦克风238可以是固定的,或可以是可以任何技术上可行的方式移动和定向的。在一些实施方案中,控制装置106被配置为针对经由麦克风238所捕获的音频执行回声消除、波束形成和噪声消除中的一者或多者。
环境系统或装置240操纵和/或调节场所102的物理环境,特别是物理环境的某些特性。可以由环境系统240调节的物理环境的特性包括但不限于温度、透过窗户或玻璃墙进入场所102的光量、透过窗户或玻璃墙的可见度以及来自场所102处的灯具的光量。例如,环境系统240可以包括恒温器114、遮光帘系统116和照明系统。
通信装置242(例如,电话112)执行通信操作。例如,电话112拨打号码以建立通信连接。
传感器244包括能够收集与场所102的环境和/或用户104相关联的数据的一个或多个传感器装置。传感器的示例可以包括但不限于生物统计传感器、光传感器、热传感器和运动传感器。
输入装置246包括能够向控制装置106提供手动输入的装置。在一些实施方案中,输入装置246包括以下一种或多种:键盘、鼠标、触敏屏幕、触敏板、按钮、旋钮、刻度盘、操纵杆等。
存储装置214可以包括用于应用程序和数据的非易失性存储装置,并且可以包括固定磁盘驱动器或可移动磁盘驱动器、闪存存储器装置和CD-ROM、DVD-ROM、蓝光、HD-DVD或其他磁性、光学或固态存储装置。语音助理应用程序250和装置发现应用程序252可以驻留在存储装置214中,并且可以在执行时加载到存储器216中。另外,在各个实施方案中,装置信息254、命令库256和事件数据258可以存储在存储装置214中。装置信息254存储有关场所102中的装置101(包括耦合到I/O装置接口208的I/O装置210)的信息。例如,所述信息可以包括装置101的标识符、场所102内的装置的定位或位置的指示、装置是什么或做什么的指示(例如,装置类型或分类)、控制装置106和装置之间的耦合的标识,以及用于与装置进行通信并控制装置的协议的标识。
命令库256包括在各种协议下提供给装置101的可能命令和控制信号的一个或多个数据库。命令库256还包括语音输入(例如,语音命令词/短语以及不同语言中的相关联的同义词和等同形式)与装置命令之间的关联(例如,映射),其中语音命令(及其相关联的同义词和其他语言的等同形式)可能与一个或多个装置命令相关联。命令库256还可以包括与控制装置106相关联的唤醒词(例如,控制装置106可以识别为在语音命令之前的唤醒词)。在一些实施方案中,命令库256另外还包括用于文本到话语转换的音素和用于语音识别和/或话语到文本转换的训练数据(例如,语音识别模型)的一个或多个数据库。此外,在一些实施方案中,命令库256可以存储可以为场所102设置的配置与装置命令和语音命令的关联。甚至进一步,在一些实施方案中,命令库256可以存储语音命令与可以由控制装置106(例 如,由语音助理应用程序250)执行的一个或多个操作之间的关联。这些操作可以包括例如:从内部系统160获得信息,访问在外部系统170处托管的在线会议空间,以及将场所102的记录(例如,视频和/或音频)和/或输出到I/O装置210(例如,显示装置232)的内容存储到时间数据258中。语音命令可以在命令库256内与提供给一个或多个装置101的一个或多个命令、将由控制装置106执行的一个或多个操作、或它们的任意组合相关联。
事件数据258可以包括场所102处的事件的数据(例如,事件的日历信息、事件的记录和/或在所述事件中呈现的内容)。在一些实施方案中,可以从内部系统160(例如,从场所信息264)检索装置信息254的至少一部分并将其在本地存储。在一些实施方案中,可以在自事件开始经过了一段时间之后和/或在用户指示下清除事件数据258(例如,针对特定事件的数据)。
存储器216可以包括随机存取存储器(RAM)模块、闪存存储器单元或任何其他类型的存储器单元或它们的组合。处理单元204、I/O装置接口208和网络接口206被配置为从存储器216读取数据和将数据写入到存储器。存储器216包括可由处理器204执行的各种软件程序(例如,操作系统、一个或多个应用程序)以及与所述软件程序(其包括语音助理应用程序250和装置发现应用程序252)相关联的应用程序数据。
语音助理应用程序250被配置为处理经由麦克风238所捕获的话语的音频,以识别话语中的唤醒词和语音命令。语音助理应用程序250监听经由麦克风238所捕获的语音输入。语音助理应用程序250将语音输入中的唤醒词识别为表示语音输入中即将到来的语音命令的词或短语。然后,语音助理应用程序250进一步识别语音输入中的语音命令。基于所识别的语音命令,语音助理应用程序250确定与语音命令相关联的一个或多个装置命令,并将与装置命令相对应的控制信号传输到一个或多个装置101。控制信号命令装置101执行与所识别的语音命令相关联的一个或多个操作。在一些实施方案中,语音助理应用程序250可以检测和标识用户104,处理由相机234所捕获的图像以:识别手势;从内部系统160获得用户信息262和日历信息266;以及使用用户信息262和日历信息266来帮助为场所102设置配置(例如,基于事件的受邀者列表和场所102中存在的用户的标识将设置配置的权限限于某些用户)。此外,在一些实施方案中,语音助理应用程序250可以训练并应用用于处理组织118内的用户的语音输入以识别唤醒词和语音命令的模型。语音助理应用程序250可以使用任何技术上可行的技术(例如,基于机器学习的技术)来训练和应用模型。
装置发现应用程序252执行装置发现操作以检测场所102中的装置101。装置发现应用程序252获得有关发现的装置的信息并将所述信息存储在装置信息254中。装置发现信息252还可以从内部系统160检索场所信息264以帮助装置发现。应当理解,虽然语音助理应用程序250和装置发现应用程序252在图2中被示出为单独的应用程序,但语音助理应用程序250和装置发现应用程序252可以组合成一个应用程序、或者应用程序250和252两者都可以是另一应用程序的组成部分。
网络122可以是允许数据在控制装置106与其他系统(例如,网络服务器、数据库服务器、另一联网的计算装置或系统)(包括内部系统160和外部系统170)之间进行交换的任何技术上可行的通信网络类型。在一些实施方案中,网络122包括局域网(LAN)、园区网(CAN)、广域网(WAN)和/或虚拟专用网(VPN),用于在组织118内的系统(例如,控制装置106、内部系统160)之间进行数据通信。网络122还可以包括WAN和/或互联网,用于在组织118内的系统与组织118外的外部环境120中的系统(例如,外部系统170)之间进行数据通信。控制装置106可以经由网络接口206与网络122连接。在一些实施方案中,网络接口206是被配置为连接到网络122并与所述网络进行交互的硬件、软件或者硬件和软件的组合。
内部系统160可以是位于组织118内但不一定位于场所102之处或位于其中的计算系统或装置(例如,数据库或其他服务器、电子邮件和日历服务器)。控制装置106可经由组织118内的网络122(诸如LAN、CAN和/或WAN)访问内部系统160。内部系统160可以包括用户信息262、场所信息264和日历信息266。用户信息262存储有关组织118内的用户(例如,雇员)的信息。用户信息262可以包括用户配置文件、用户语音样本和用户图像(例如,照片)。场所信息264存储有关组织118内的各个场所(包括场所102)的信息。场所信息264可以包括有关场所102处的装置101的信息,并且控制装置106可以获得该信息,以作为利用装置发现应用程序252执行装置发现的补充或替代。日历信息266包括关于针对组织118内的各个场所(包括场所102)所安排的事件的信息。所述事件可以包括在某些场所处的安排的会议以及相关联的场所预订(例如,对场所102的预)。对于组织118内的某一场所(例如,场所102)处的给定事件,日历信息226中的信息可以包括但不限于:事件的日期和时间;事件的受邀者(例如,受邀者的姓名和电子邮件地址);有关与所述事件相关联的远程电话会议或web会议空间的信息(例如,电话会议拨入号码、到web托管的在线会议空间的超链接);以及事件认证信息(例如,与拨入式或web托管的在线会议空间相关联的会议名称和密码、用于开始事件并针对所述事件为场所102设置配置的密码)。在一些实施方案中,日历信息266还包括针对事件(例如,会议室预订)的组织118内的场所的预定或预订的信息。
外部系统170包括组织118外部的外部环境120中的任何系统。例如,外部系统170可以是web托管的在线会议系统,其中托管与场所102处的事件相关联的在线会议空间。控制装置106可以经由到外部系统170中的在线会议空间的超链接来访问在线会议空间。
在一些实施方案中,控制装置106可以标识场所102处的用户104。例如,控制装置106可以处理经由相机234所捕获的图像和/或经由麦克风238所捕获的音频,以标识场所102处的一个或多个用户104。控制装置106可以使用任何技术上可行的技术(例如,基于用户信息262中的用户图像的面部识别、基于用户信息262中的用户语音样本的语音识别)来标识用户104。在一些实施方案中,可以使用用户身份来代替事件密码,即如果识别出某些事件受邀者(例如,事件主持人或组织者),则语音助理应用程序250可以跳过提示输入开始会议的事件密码。在一些实施方案中,控制装置106可以基于用户身份(例如,对特定标识的用户的限制、基于相对于事件的用户角色的限制(例如,事件主持人、事件组织者、事件受邀者、事件支持人员、非受邀者、组织118外部的出席者))来限制针对语音命令的授权和以及对配置的设置。例如,某些语音命令和/或配置可能被限制为可由事件主持人激活;语音助理应用程序250可以忽略发出受限语音命令的非主持人的事件出席者或受邀者。此外,在一些实施方案中,控制装置106可以基于所标识的用户104来设置个性化配置。例如,用户104可以与扬声器236的特定音量级配置相关联。响应于识别出该用户,控制装置106可以根据与该用户相关联的配置来设置扬声器236的音量级。这种基于用户的限制对于场所102而言可以是特定于事件的或是全局的。可以在针对事件的事件信息中(例如,在从日历信息266所获得并存储在事件数据258中的事件信息中)指定特定于事件的限制。可以在命令库256中指定对场所102的全局限制,即装置命令和/或配置可以与命令库256中的限制相关联。
在一些实施方案中,控制装置106可以学习与用户104相关联的偏好(例如,各个用户的偏好、用户组的偏好)和/或与事件相关联的偏好(例如,反复出现的事件的偏好)。语音助理应用程序250可以在场所102处的事件期间收集数据,所述数据可以存储在事件数据258中。语音助理应用程序250可以使用任何技术上可行的技术(例如,机器学习技术、发生频率分析)来处理该数据以学习偏好。例如,语音助理应用程序250可以在事件期间收集关于音频音量、温度、遮光帘状态等的数据,将所述数据与用户和/或事件相关联,以及基于相关性来学习与用户和/或事件相关联的偏好。当用户在场所102处出席或在该场所处再次发生事件时,语音助理应用程序250可以存储这些偏好并应用这些偏好(例如,作为个性化配置,如上所述)。在一些实施方案中,语音助理应用程序250可以基于所收集的数据来生成(例如,训练和再训练)偏好模型。偏好模型反映了到目前为止基于所收集的数据而已学习的偏好,并且可以用于将偏好应用于新的一组用户或新的事件。偏好模型可以存储在存储装置214中的事件数据258中。
在一些实施方案中,场所102的环境(例如,场所102处的事件)和/或在该事件处呈现的内容可以由控制装置106记录。语音助理应用程序250可以响应于用户的输入(例如,相关联的语音命令)来激活记录。所述记录可以存储在事件数据258和/或内部系统160中。例如,语音助理应用程序250可以将事件记录存储在事件数据258中,或者将记录上传到内部系统160并删除存储在控制装置106处的记录副本。在一些实施方案中,语音助理应用程序250通知用户104参加记录的事件(例如,经由发送给出席者的电子邮件)以及在何处可以访问所述记录(例如,到所述记录的超链接)。在一些实施方案中,控制装置106在默认情况下不记录事件或在事件中呈现的内容-响应于用户104明确输入这样做来激活记录。
在一些实施方案中,除了使用语音输入或经由输入装置246的输入之外,用户104还可以做出姿势(例如,手势)以激活装置命令和/或配置设置。控制装置106可以处理经由相机234所捕获的图像和/或经由传感器244(例如,运动传感器)检测手和手臂的运动,以识别图像中的手势。控制装置106可以使用任何技术上可行的技术(例如,图像中的对象识别)来处理图像以识别手势。基于所识别的手势以及手势与命令库256中的装置命令之间的关联性,控制装置106可以向装置101传输控制信号和/或为场所102设置配置。例如,用户104可以执行拇指向上或拇指向下的姿势以分别上调或下调从扬声器236输出的音频的音量。装置命令和/或配置可以与命令库256中的手势相关联。
图3A至图3C示出了根据各个实施方案的一个或多个方面的用于在本地化计算环境中命令一个或多个装置的示例性过程300的流程图。过程300示出了经由与多个操作相关联的语音命令来命令场所102处的一个或多个装置101的示例。
过程300在步骤302处开始,其中语音助理应用程序250接收语音输入“嘿,哈尔满,开始会议(Hey Harman.Start the meeting)”。在该语音输入中,“嘿,哈尔满(HeyHarman)”是唤醒词,而“开始会议(Start the meeting)”是语音命令。控制装置106(具体地,语音助理应用程序250)监听场所102处由用户104输入的参加事件的话语。当用户104说出语音输入“嘿,哈尔满,开始会议(Hey Harman.Start the meeting)”时,由麦克风238捕获该语音输入,并且由语音助理应用程序250接收所捕获的语音输入。
在步骤304处,语音助理应用程序250在本地处理语音输入(例如,在控制装置106处执行话语到文本处理和自然语言处理,而不将任何数据传输到控制装置106外部)并识别语音输入内的唤醒词“嘿,哈尔满(Hey Harman)”。语音命令之前是指示随后的话语包括语音命令的唤醒词或短语。因此,语音助理应用程序250在尝试识别语音输入中的语音命令时,首先在本地处理语音输入“嘿,哈尔满,开始会议(Hey Harman.Start the meeting)”以识别唤醒词“嘿,哈尔满(Hey Harman)”。
在步骤306处,在识别出唤醒词之后,语音助理应用程序250在本地处理语音输入并将语音输入中的词“开始会议(Start the meeting)”识别为语音命令。语音助理应用程序250还在本地处理语音命令以确定与语音命令相关联的装置命令和/或配置,以及在场所102处的装置210之间是否存在与所述装置命令和/或配置相关联的任何装置。语音助理应用程序250将语音命令“开始会议(Start the meeting)”与以下描述的装置命令集和/或包括多个操作的配置相匹配,并确定在场所102处在装置210之间是否存在与所述装置命令集和/或配置相关联的装置。如果不存在装置中的至少一个,则语音助理应用程序250可以继续进行并且忽略对不存在的装置的操作,或者向用户返回错误提示。响应于所述提示,用户可以选择(并命令语音助理应用程序250)继续进行并且忽略对不存在的装置的操作或者终止语音命令。如果存在装置,则语音助理应用程序250可以如下所述继续进行。
在步骤308处,语音助理应用程序250将控制信号传输到I/O装置210。例如,这些控制信号包括提供给显示器232的信号,以打开显示器232的电源并配置所述显示器处的输入(例如,将输入设置为第一HDMI输入)。基于与所识别的语音命令相关联的装置命令集和/或配置,语音助理应用程序250将多个控制信号传输到I/O装置210。在步骤310处,显示器232响应于控制信号而打开电源。在步骤312处,显示器232响应于控制信号而配置其输入(例 如,切换到在控制信号中指定的特定输入)。
在步骤314处,语音助理应用程序250向内部系统160传输314对会议信息的请求。例如,语音助理应用程序250向内部系统160传输信息请求以获得与在场所102处安排的事件(例如,基于事件受邀者和/或对场所102的预订而安排在场所102处举行的事件)相关联的信息(例如,日历信息266、用户信息262)。
在步骤316处,内部系统160接收来自语音助理应用程序250的请求。响应于所述请求,内部系统160从日历信息266检索关于针对场所102安排的下一个事件的信息。在步骤318处,内部系统160将事件信息传输到语音助理应用程序250。在步骤320处,语音助理应用程序250接收事件信息。事件信息包括场所102处的下一个安排的事件的日期和时间、事件的受邀者、任选地远程电话会议web会议空间信息、以及任选地事件认证信息(例如,事件密码)。
在步骤322处,语音助理应用程序250将当前时间与事件时间进行比较以确定是否要开始事件。如果事件尚未开始(例如,事件时间大于当前时间之后的阈值时间段),则过程300返回到步骤322,其中语音助理应用程序250等待。语音助理应用程序250可以周期性地检查事件的开始,直到事件时间小于当前时间之后的阈值时间段。
如果事件将要开始,则过程300继续进行到步骤324,其中语音助理应用程序250将事件密码的提示传输到I/O装置210。所述提示可以是对场所102处的用户104(例如,事件的出席者)的听觉和/或视觉提示,以提供事件的密码。在步骤326处,I/O装置210(例如,显示器232和/或扬声器236)输出提示并等待对所述提示的响应。在步骤328处,接收对提示的响应。出现在场所102处的用户104可以对麦克风238做出响应,或者经由输入装置246输入响应。在步骤330处,将所述响应传输到语音助理应用程序250。
在步骤332处,语音助理应用检查所述响应是否包括正确的事件密码。如果所述响应不包括正确的密码,则过程300返回到步骤324,其中可以再次为用户104提示密码。如果所述响应确实包括正确的密码,则过程300继续进行到步骤334,其中语音助理应用程序经由与事件相关联的超链接访问外部系统170。具体地,超链接链接到由外部系统170托管的在线会议空间。超链接可以被包括在从内部系统160传输的事件信息中。
在步骤336处,语音助理应用程序250向I/O装置210传输附加的控制信号。这些控制信号包括用于拨打电话号码(具体地,从内部系统160传输的事件信息中包括的电话会议拨入电话号码)以及输出与在线会议空间相关联的内容的控制信号。在步骤310处,响应于控制信号,通信装置242(例如,电话)拨打拨入号码。在步骤340处,显示器232输出来自在线会议空间的内容(例如,在线会议空间中共享的内容的视图、在线会议空间中的远程参与者的视图)。因此,过程300示出了向装置101发出装置命令集,并由此经由一个语音输入(嘿,哈尔满,开始会议(Hey Harman.Start the meeting”)来为场所102处的事件设置配置的示例。
图4示出了根据各个实施方案的一个或多个方面的用于在本地化计算环境中命令装置的方法步骤的流程图。尽管结合图1至图3C的系统描述了所述方法步骤,但本领域技术人员应当理解,被配置为以任何次序执行所述方法步骤的任何系统都落在各个实施方案的范围内。
如图4所示,方法400在步骤402处开始,其中语音助理应用程序250检测场所处的装置。语音助理应用程序250和/或装置发现应用程序252可以使用装置发现应用程序252和/或从内部系统160所获得的场所信息264来检测场所102处的一个或多个装置。
在步骤404处,语音助理应用程序250将装置与命令库中的一个或多个命令相关联。例如,语音助理应用程序250可以将与检测到的装置相关联的信息存储在装置信息254中。装置信息254可以包括由检测到的装置实施的协议的标识,以接收并响应来自控制装置106的控制信号。基于所标识的协议,语音助理应用程序250将所检测的装置与命令库256中的与所述标识的协议相关联的装置命令相关联。此外,在命令库256内,装置命令可以与某些语音命令和/或姿势相关联。
在步骤406处,如果装置检测未完成(例如,还有更多装置要检测),则在步骤406中为“否”,过程400返回到步骤402,其中语音助理应用程序250和/或装置发现应用程序252可以检测所述场所处的另一装置。如果装置检测完成,则在步骤406中为“是”,过程400继续进行到步骤408。
在步骤408处,语音助理应用程序250接收语音输入。控制装置106可以经由麦克风238捕获用户104发出的语音输入。
在步骤410处,语音助理应用程序250在本地处理语音输入以识别语音输入中的语音命令。语音助理应用程序250在本地处理语音输入(即,不将用于处理语音输入的信息传输到至少组织118外部并且任选地不传输到控制装置106外部)。语音助理应用程序250基于本地处理来识别语音输入中的唤醒词和语音命令。
在步骤412处,语音助理应用程序250确定与语音命令相关联的装置命令。语音助理应用程序250确定包括在命令库256中的装置命令,所述装置命令与所识别的语音命令相关联。基于装置信息254中的协议标识,语音助理应用程序250还可以识别出所述装置命令包括在步骤404中的与所述装置相关联的一个或多个装置命令中。在确定装置命令之后,与语音输入相对应的数据(例如,所捕获的语音输入样本)可以被语音助理应用程序250丢弃(例如,从控制装置106中移除)。
在步骤414处,语音助理应用程序250确定在场所中是否存在装置。语音助理应用程序250基于装置信息254和/或装置当前是否通信地耦合到控制装置106来确定在场所102处是否存在与装置命令关联的装置。
如果不存在装置,则在步骤414中为“否”,过程400返回到步骤408,其中语音助理应用程序250可以忽略语音命令并接收另一语音输入。如果存在装置,则在步骤414中为“是”,过程400进行到步骤416,其中语音助理应用程序250致使装置根据装置命令执行一个或多个操作。语音助理应用程序250可以将与装置命令相对应的控制信号传输到装置,以执行一个或多个操作。
在一些实施方案中,代替步骤414,语音助理应用程序250可以将与装置命令相对应的控制信号经由与装置的最后已知的通信耦合传输到装置(例如,基于装置信息256),而无需首先确定存在装置。如果不存在装置,则控制信号将没有效果。如果装置存在于与所述装置的最后已知的通信耦合处并接收到控制信号,则该所述装置将根据装置命令执行一个或多个操作。
总之,本地化语音助理应用程序可以用于操作与场所相关联的装置和系统。在某一场所处实现的计算系统检测或发现与所述场所相关联的一个或多个装置和系统。对于检测到的装置或系统,计算系统将一个或多个装置命令与所述装置相关联。装置命令还可以与语音命令相关联。计算系统接收输入(例如,包括唤醒词和语音命令的语音输入)并在本地处理所述输入以基于所述输入确定装置命令。计算系统将与装置命令相对应的控制信号传输到场所处的与所述装置命令相关联的装置。
所公开的技术的优点和技术改进在于,可以经由本地语音助理来操作某一场所处的装置和系统,而无需基于互联网和/或基于云的处理。所述场所本地的系统处的语音助理在本地处理语音输入,以识别用于操作装置和系统的命令,而无需将数据传输到场所外部进行处理。因此,与使用常规语音助理的操作相比,可以经由语音输入以减少的延迟来操作所述场所处的装置和系统。此外,本地语音助理不需要存留或保留所捕获的语音或话语数据来进行其操作。在识别话语中的唤醒词和语音命令后,可能会立即丢弃在所述场所处所捕获的话语。在未存留话语或语音数据的情况下,与常规的语音助理相比,可以减少或消除可能包含在话语或语音数据中的私人信息的泄漏。
1.在一些实施方案中,一种计算机实现的方法包括:检测某一场所处的第一装置;将所述第一装置与一个或多个装置命令相关联;接收输入;在本地处理所述输入以确定与所述输入相关联并且包括在所述一个或多个装置命令中的第一装置命令;以及致使所述第一装置根据所述第一装置命令执行一个或多个第一操作。
2.如条款1所述的方法,其中所述输入包括语音输入。
3.如条款1或2所述的方法,其中在本地处理所述输入包括在本地识别包括在所述语音输入中的语音命令,其中所述语音命令与所述第一装置命令相关联。
4.如条款1至3中任一项所述的方法,其中在本地处理所述输入包括不将所述输入传输到所述场所外部的远程系统进行处理。
5.如条款1至4中任一项所述的方法,其中所述场所是会议室。
6.如条款1至5中任一项所述的方法,其中所述输入还与第二装置命令相关联,并且所述方法还包括致使第二装置根据所述第二装置命令执行一个或多个第二操作。
7.如条款1至6中任一项所述的方法,还包括响应于所述输入,获得与所述场所处的事件相关联的事件信息。
8.如条款1至7中任一项所述的方法,还包括响应于所述输入,访问所述场所外部的远程系统。
9.如条款1至8中任一项所述的方法,还包括:标识所述场所处的用户;以及基于所述用户标识,致使所述第一装置执行一个或多个第二操作。
10.如条款1至9中任一项所述的方法,还包括:识别所述场所的图像中的姿势;以及基于所述姿势,致使所述第一装置执行一个或多个第二操作。
11.在一些实施方案中,一种或多种非暂时性计算机可读介质,所述非暂时性计算机可读介质存储指令,所述指令在由一个或多个处理器执行时,致使所述一个或多个处理器执行以下步骤:检测某一场所处的第一装置;将所述第一装置与一个或多个装置命令相关联;接收输入;在本地处理所述输入以确定与所述输入相关联并且包括在所述一个或多个装置命令中的第一装置命令;以及致使所述第一装置根据所述第一装置命令执行一个或多个第一操作。
12.如条款11所述的一种或多种计算机可读介质,其中所述输入包括语音输入。
13.如条款11或12所述的一种或多种计算机可读介质,其中在本地处理所述输入包括在本地识别包括在所述语音输入中的语音命令,其中所述语音命令与所述第一装置命令相关联。
14.如条款11至13中任一项所述的一种或多种计算机可读介质,其中在本地处理所述输入包括不将所述输入传输到所述场所外部的远程系统进行处理。
15.如条款11至14中任一项所述的一种或多种计算机可读介质,其中所述输入还与第二装置命令相关联,并且所述一种或多种计算机可读介质还存储指令,所述指令在由一个或多个处理器执行时,致使所述一个或多个处理器执行以下步骤:致使第二装置根据所述第二装置命令执行一个或多个第二操作。
16.在一些实施方案中,一种系统包括:存储器,所述存储器存储指令;以及处理器,所述处理器耦合到所述存储器,并且当执行所述指令时,被配置为:检测某一场所处的第一装置;将所述第一装置与一个或多个装置命令相关联;接收语音输入;在本地处理所述语音输入以确定与所述语音输入相关联并且包括在所述一个或多个装置命令中的第一装置命令;以及致使所述第一装置根据所述第一装置命令执行一个或多个第一操作。
17.如条款16所述的系统,其中在本地处理所述语音输入包括在本地识别包括在所述语音输入中的语音命令,其中所述语音命令与所述第一装置命令相关联。
18.如条款16或17所述的系统,其中在本地处理所述语音输入包括不将所述语音输入传输到所述场所外部的远程系统进行处理。
19.如条款16至18中任一项所述的系统,其中所述场所是会议室。
20.如条款16至19中任一项所述的系统,其中所述语音输入还与第二装置命令相关联,并且所述处理器在执行所述指令时,还被配置为致使第二装置根据所述第二装置命令执行一个或多个第二操作。
任何权利要求中所述的要求保护的要素和/或本申请中所描述的任何要素的以任何方式进行的任何和所有组合都落在可设想的当前保护范围内。
已经出于说明的目的呈现了对各种实施方案的描述,但是所述描述无意为穷尽的或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员来说是显而易见的。
本发明实施方案的各方面可体现为一种系统、方法或计算机程序产品。因此,本公开的各方面可以采取完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或组合软件和硬件方面的实施方案的形式,所述软件和硬件方面在本文中通常都可以被称为“模块”、“系统”或“计算机”。另外,本公开中描述的任何硬件和/或软件技术、过程、功能、部件、引擎、模块或系统可以被实施为电路或电路组。另外,本公开的各方面可以采取被实施在一个或多个计算机可读介质中的计算机程序产品的形式,所述计算机可读介质具有在其上实施的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或者前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下项:具有一条或多条电线的电气连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或者前述的任何合适的组合。在本文档的背景中,计算机可读存储介质可以是可以包含或存储由或结合指令执行系统、设备或装置使用的程序的任何有形介质。
上文参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。将理解,流程图和/或框图中的每个框以及流程图和/或框图中的框组合可以由计算机程序指令来实施。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器。所述指令在经由计算机或其他可编程数据处理设备的处理器执行时使得能够实施在流程图和/或框图的一个或多个框中指定的功能/动作。此类处理器可以是但不限于通用处理器、专用处理器、特定应用处理器或现场可编程门阵列。
附图中的流程图和框图示出了根据本公开的各个实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。就此而言,流程图或框图中的每个框均可以表示代码的模块、片段或部分,所述代码包括用于实施指定的逻辑功能的一个或多个可执行指令。还应注意,在一些替代实现方式中,框中指出的功能可按照附图中指出的次序以外的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者所述框有时可以按相反的次序执行,这取决于所涉及的功能。还应当注意,框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作或执行专用硬件与计算机指令的组合的基于专用硬件的系统来实施。
虽然前述内容涉及本公开的各实施方案,但在不脱离本公开的基本范围的情况下可设想本公开的其他和另外的实施方案,并且本公开的范围由所附权利要求书确定。
Claims (20)
1.一种计算机实现的方法,包括:
检测某一场所处的第一装置;
将所述第一装置与至少一个装置命令相关联;
接收输入;
在本地处理所述输入以确定与所述输入相关联并且包括在所述至少一个装置命令中的第一装置命令;以及
致使所述第一装置根据所述第一装置命令执行至少一个第一操作。
2.如权利要求1所述的方法,其中所述输入包括语音输入。
3.如权利要求2所述的方法,其中在本地处理所述输入包括在本地识别包括在所述语音输入中的语音命令,其中所述语音命令与所述第一装置命令相关联。
4.如权利要求1所述的方法,其中在本地处理所述输入包括不将所述输入传输到所述场所外部的远程系统进行处理。
5.如权利要求1所述的方法,其中所述场所是会议室。
6.如权利要求1所述的方法,其中所述输入还与第二装置命令相关联,并且所述方法还包括致使第二装置根据所述第二装置命令执行至少一个第二操作。
7.如权利要求1所述的方法,还包括响应于所述输入,获得与所述场所处的事件相关联的事件信息。
8.如权利要求1所述的方法,还包括响应于所述输入,访问所述场所外部的远程系统。
9.如权利要求1所述的方法,还包括:
标识所述场所处的用户;以及
基于所述用户标识,致使所述第一装置执行至少一个第二操作。
10.如权利要求1所述的方法,还包括:
识别所述场所的图像中的姿势;以及
基于所述姿势,致使所述第一装置执行至少一个第二操作。
11.一种或多种非暂时性计算机可读介质,所述非暂时性计算机可读介质存储指令,所述指令在由一个或多个处理器执行时,致使所述一个或多个处理器执行以下步骤:
检测某一场所处的第一装置;
将所述第一装置与至少一个装置命令相关联;
接收输入;
在本地处理所述输入以确定与所述输入相关联并且包括在所述至少一个装置命令中的第一装置命令;以及
致使所述第一装置根据所述第一装置命令执行至少一个第一操作。
12.如权利要求11所述的一种或多种计算机可读介质,其中所述输入包括语音输入。
13.如权利要求12所述的一种或多种计算机可读介质,其中在本地处理所述输入包括在本地识别包括在所述语音输入中的语音命令,其中所述语音命令与所述第一装置命令相关联。
14.如权利要求11所述的一种或多种计算机可读介质,其中在本地处理所述输入包括不将所述输入传输到所述场所外部的远程系统进行处理。
15.如权利要求11所述的一种或多种计算机可读介质,其中所述输入还与第二装置命令相关联,并且所述一种或多种计算机可读介质还存储指令,所述指令在由一个或多个处理器执行时,致使所述一个或多个处理器执行以下步骤:致使第二装置根据所述第二装置命令执行至少一个第二操作。
16.一种系统,包括:
存储器,所述存储器存储指令;以及
处理器,所述处理器耦合到所述存储器,并且当执行所述指令时,被配置为:
检测某一场所处的第一装置;
将所述第一装置与至少一个装置命令相关联;
接收语音输入;
在本地处理所述语音输入以确定与所述语音输入相关联并且包括在所述至少一个装置命令中的第一装置命令;以及
致使所述第一装置根据所述第一装置命令执行至少一个第一操作。
17.如权利要求16所述的系统,其中在本地处理所述语音输入包括在本地识别包括在所述语音输入中的语音命令,其中所述语音命令与所述第一装置命令相关联。
18.如权利要求16所述的系统,其中在本地处理所述语音输入包括不将所述语音输入传输到所述场所外部的远程系统进行处理。
19.如权利要求16所述的系统,其中所述场所是会议室。
20.如权利要求16所述的系统,其中所述语音输入还与第二装置命令相关联,并且所述处理器在执行所述指令时,还被配置为致使第二装置根据所述第二装置命令执行至少一个第二操作。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862786256P | 2018-12-28 | 2018-12-28 | |
US62/786,256 | 2018-12-28 | ||
US16/726,228 | 2019-12-23 | ||
US16/726,228 US20200211563A1 (en) | 2018-12-28 | 2019-12-23 | Localized virtual personal assistant |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111385175A true CN111385175A (zh) | 2020-07-07 |
Family
ID=69055862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911377200.8A Pending CN111385175A (zh) | 2018-12-28 | 2019-12-27 | 本地化虚拟个人助理 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200211563A1 (zh) |
EP (1) | EP3674882B1 (zh) |
KR (1) | KR20200083289A (zh) |
CN (1) | CN111385175A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112839196A (zh) * | 2020-12-30 | 2021-05-25 | 北京橙色云科技有限公司 | 一种实现在线会议的方法、装置以及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11120805B1 (en) * | 2020-06-19 | 2021-09-14 | Micron Technology, Inc. | Intelligent microphone having deep learning accelerator and random access memory |
CN114005444A (zh) * | 2021-10-29 | 2022-02-01 | 百度在线网络技术(北京)有限公司 | 语音控制方法、装置及电子设备 |
US20240161740A1 (en) * | 2022-11-14 | 2024-05-16 | Google Llc | Multi-Assistant Warm Words |
US20240169995A1 (en) * | 2022-11-17 | 2024-05-23 | Google Llc | Multi-User Warm Words |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150170664A1 (en) * | 2013-03-14 | 2015-06-18 | Google Inc. | Compartmentalized self registration of external devices |
US20170357637A1 (en) * | 2016-06-09 | 2017-12-14 | Apple Inc. | Intelligent automated assistant in a home environment |
CN107636613A (zh) * | 2015-05-14 | 2018-01-26 | 微软技术许可有限责任公司 | 到第三方应用的数字助理可扩展性 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2849718A1 (en) * | 2010-09-21 | 2012-03-29 | Cellepathy Ltd. | System and method for sensor-based determination of user role, location, and/or state of one of more in-vehicle mobile devices and enforcement of usage thereof |
US9197618B2 (en) * | 2012-12-31 | 2015-11-24 | Here Global B.V. | Method and apparatus for location-based authorization to access online user groups |
US10147421B2 (en) * | 2014-12-16 | 2018-12-04 | Microcoft Technology Licensing, Llc | Digital assistant voice input integration |
US10803189B2 (en) * | 2016-08-31 | 2020-10-13 | Microsoft Technology Licensing, Llc | Location-based access control of secured resources |
US10424297B1 (en) * | 2017-02-02 | 2019-09-24 | Mitel Networks, Inc. | Voice command processing for conferencing |
US10282166B2 (en) * | 2017-05-03 | 2019-05-07 | The Reverie Group, Llc | Enhanced control, customization, and/or security of a sound controlled device such as a voice controlled assistance device |
US11514178B2 (en) * | 2018-07-17 | 2022-11-29 | iT SpeeX LLC | Method, system, and computer program product for role- and skill-based privileges for an intelligent industrial assistant |
US11349841B2 (en) * | 2019-01-01 | 2022-05-31 | International Business Machines Corporation | Managing user access to restricted content through intelligent content redaction |
-
2019
- 2019-12-23 US US16/726,228 patent/US20200211563A1/en not_active Abandoned
- 2019-12-26 KR KR1020190175178A patent/KR20200083289A/ko active Search and Examination
- 2019-12-27 CN CN201911377200.8A patent/CN111385175A/zh active Pending
- 2019-12-30 EP EP19220067.3A patent/EP3674882B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150170664A1 (en) * | 2013-03-14 | 2015-06-18 | Google Inc. | Compartmentalized self registration of external devices |
CN107636613A (zh) * | 2015-05-14 | 2018-01-26 | 微软技术许可有限责任公司 | 到第三方应用的数字助理可扩展性 |
US20170357637A1 (en) * | 2016-06-09 | 2017-12-14 | Apple Inc. | Intelligent automated assistant in a home environment |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112839196A (zh) * | 2020-12-30 | 2021-05-25 | 北京橙色云科技有限公司 | 一种实现在线会议的方法、装置以及存储介质 |
CN112839196B (zh) * | 2020-12-30 | 2021-11-16 | 橙色云互联网设计有限公司 | 一种实现在线会议的方法、装置以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3674882B1 (en) | 2024-03-27 |
EP3674882A1 (en) | 2020-07-01 |
US20200211563A1 (en) | 2020-07-02 |
KR20200083289A (ko) | 2020-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3674882B1 (en) | Localized virtual personal assistant | |
JP7198861B2 (ja) | ホームオートメーションのためのインテリジェントアシスタント | |
JP6902136B2 (ja) | システムの制御方法、システム、及びプログラム | |
US12046241B2 (en) | Device leadership negotiation among voice interface devices | |
EP3520100B1 (en) | Noise mitigation for a voice interface device | |
CN107910007B (zh) | 语音接口设备上的多用户个性化 | |
US10958457B1 (en) | Device control based on parsed meeting information | |
WO2017141502A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR20190100512A (ko) | 챗봇과 대화하기 위한 전자 장치 및 그의 동작 방법 | |
US11763817B2 (en) | Methods, systems, and media for connecting an IoT device to a call | |
CN107026943A (zh) | 语音交互方法及系统 | |
WO2019198405A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
US10916159B2 (en) | Speech translation and recognition for the deaf | |
JP6973380B2 (ja) | 情報処理装置、および情報処理方法 | |
KR20200112481A (ko) | 회의 제어를 위한 컴퓨터 프로그램, 전자 장치, 및 시스템 | |
US20180081352A1 (en) | Real-time analysis of events for microphone delivery | |
KR102178174B1 (ko) | 사용자 단말, 방송 장치, 이를 포함하는 방송 시스템 및 그 제어방법 | |
US12062362B2 (en) | Information processing device, information processing system, and information processing method | |
JP2017157117A (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20220165263A1 (en) | Electronic apparatus and method of controlling the same | |
KR102128107B1 (ko) | WebRTC 기반의 음성정보검색 서비스 제공 시스템 및 그 방법 | |
WO2022193735A1 (zh) | 显示设备及语音交互方法 | |
JP7351642B2 (ja) | 音声処理システム、会議システム、音声処理方法、及び音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |