CN111356932B

CN111356932B - 管理多个设备的方法和电子设备

Info

Publication number: CN111356932B
Application number: CN201880073951.8A
Authority: CN
Inventors: 朱金长龙; 阿伦·拉凯什·约加南丹; 秋吉久美
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-12-29
Filing date: 2018-02-09
Publication date: 2024-06-04
Anticipated expiration: 2038-02-09
Also published as: KR20200095460A; CN111356932A; EP3714284A4; US10306394B1; WO2019132110A1; KR102578695B1; EP3714284A1

Abstract

描述了一种管理多个设备的方法。所述方法包括：接收包括多个设备的图像；基于对所述图像的分析，确定所述多个设备的空间图，其中，所述空间图包括所述多个设备中的每个设备相对于所述多个设备中的另一个设备的位置；以及基于所述空间图来调整所述多个设备中的至少一个设备的传感器，以修改与所述多个设备相关联的声场。还描述了用于提供信息的系统。

Description

管理多个设备的方法和电子设备

技术领域

本发明的实施例总体上涉及诸如电子设备之类的设备，具体涉及管理多个设备的方法和电子设备。

背景技术

随着数字设备的可用性增加，家庭中这种已连接的设备的存在以及具有重叠的能力的数字设备的多样性增加。例如，人们可能拥有不同的设备，例如平板计算机、电话、电视、音响系统，并且在它们之间可能存在组件和功能的重复。然而，设备与设备的各自的能力的可能的使用之间没有联系。

更具体地，数字设备中的许多数字设备可以具有与声音有关的相同类型的组件或组件的组合，例如，扬声器和/或麦克风，通过它们来执行诸如声音播放和语音检测之类的任务；或者检测手势的更高级的组件。即使不同的设备拥有相同类型的组件并使用相同的技术，但与这样的组件相关联的操作通常仅限于其各自的设备。当作为一个群集组合在一起时，它们将继续作为独立于其邻居的单独单元运行。

发明内容

技术问题

用于在自由设备的群集之中执行校准的现有的解决方案很麻烦，通常需要专门的硬件或软件。校准可能需要多个步骤，花费大量时间，并且可能会使用户承担执行正确的校准步骤的负担。因此，这些解决方案对消费者不是十分友好，因此可能限制许多设备用户使用校准步骤。

因此，需要管理一起操作的多个设备的系统和方法。

问题的解决方案

描述管理多个设备的方法。所述方法包括：接收包括多个设备的图像；基于对所述图像的分析，确定所述多个设备的空间图，其中，所述空间图包括所述多个设备中的每个设备相对于所述多个设备中的另一个设备的位置；以及基于所述空间图来调整所述多个设备中的至少一个设备的传感器，以修改与所述多个设备相关联的声场。

还描述用于提供信息的系统。该系统包括：具有传感器的多个设备；以及电子设备，其中，该电子设备：接收包括多个设备的图像；基于对所述图像的分析，确定所述多个设备的空间图，其中，所述空间图包括所述多个设备中的每个设备相对于所述多个设备中的另一个设备的位置；以及基于所述空间图来调整所述多个设备中的至少一个设备的传感器，以修改与所述多个设备相关联的声场。

一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质中存储有对处理器可执行以执行方法的指令加以表示的数据，该方法包括：接收包括多个设备的图像；基于对所述图像的分析，确定所述多个设备的空间图，其中，所述空间图包括所述多个设备中的每个设备相对于所述多个设备中的另一个设备的位置；以及基于所述空间图来调整所述多个设备中的至少一个设备的传感器，以修改与所述多个设备相关联的声场。

附图说明

图1是具有多个设备以及控制设备的系统的示例性框图；

图2是控制设备的示例性框图；

图3是示出适于接收作为示例被示出为手势的输入的多个设备的示例性示图；

图4是示出适于接收作为示例被示出为语言输入的输入的多个设备的示例性示图；

图5a和图5b是对多个设备进行校准以创建用于在传感器处接收输入或生成输出的经协调的场的示例性示图；

图6a和图6b是示出由多个麦克风生成的组合音频信号的生成的示例性示图；

图7是示出在多个接收器处接收来自发送器的音频信号的示例性示图；

图8是示出控制设备捕捉多个设备的图像的示例性示图；

图9是示出多个设备的关系的图8的控制设备的显示器的放大视图；

图10a和图10b是示出确定在控制设备的视野之外的设备的关系的过程的示例性示图；

图11是示出管理多个设备的方法的示例性流程图；

图12是示出用于接收输入或生成输出的经协调的场的示例性示图；

图13a和图13b是示出图12的用于接收输入或生成输出的经协调的场的优化区域的示例性示图；

图14a和图14a是示出用于接收输入或生成输出的设备的3D布置的示例性示图；

图15a、图15b和图15c是示出与多个设备相关联的不同的经协调的区域的示例性示图；

图16是示出房间内的设备的防调的示例性示图；以及

图17是示出管理多个设备的另一种方法的示例性流程图。

具体实施方式

以下方法和系统允许控制设备管理多个电子设备，并且可以利用视觉线索和设备之间的空间关系作为要用于校准的附加数据来加速和改善校准过程。因为在某些场景下，使设备的群集一起工作并作为一个组而不是作为单独播放器操作可能是有益的，所以确定设备的能力和设备之间的关系可能是有益的。例如，同一房间中的4个智能扬声器的群集作为一个组彼此协作以提供统一的环绕声体验，而不是作为4个单独的扬声器，可能是有益的。备选地，当具有手势能力的显示器被群集在一起时，与作为整体的群集而不是单个显示器执行手势交互可能是有益的。不幸的是，当形成这样的群集时，与这样的设备相关联的声场(用于感测和生成输出)导致具有不同水平的重叠和强度的区域，导致不统一且次优的聆听体验。在这些情况下，校准是使该群集周围的声场标准化并实现统一的团体行为的有益步骤。然而，在没有来自群集的多个设备之间的空间关系的信息的情况下的校准导致复杂的过程，或者用户需要指定设备中的每个设备的位置，或者每个设备都需要与其他设备通信，但是在它们之间经常断开连接。因此，需要包括自动检测每个设备的关系和信息的自动校准过程。一旦正确校准，就可以计算职责的适当分布、组内的交互/输出的区域，并将其部署到各个设备，以创建统一的体验。

这些设备的校准过程改善了多个设备之间的协调性，因为它们之间可能存在差异。设备之间的空间关系很重要，因为每个设备的位置都与声音信号的传出和传入直接相关。包含扬声器或麦克风的阵列的结构固定的设备利用其空间固定性(spatial rigidity)进行校准，并且由于可以保证它们的相对空间关系将永远保持不变，因此可以在出厂时已预先校准。然而，对于并非固定地彼此连接并且可以根据用户的需要在空间上自由布置的设备(例如相框组)，制造商无法提前预见空间关系或对其进行规划。因此，校准是在用户端完成的，这使过程变得相当复杂。

虽然本说明书包括限定被认为是新颖的本发明的一个或多个实现的特征的权利要求，但是相信结合附图考虑描述将更好地理解电路和方法。虽然公开了各种电路和方法，但是应理解，所述电路和方法仅仅是本发明的布置的示例，其可以以各种形式实施。因此，本说明书中公开的具体结构和功能细节不应被解释为限制性的，而仅仅作为权利要求的基础，并且作为教导本领域技术人员以实质上任何适当的详细结构不同地采用本发明的布置的代表性基础。此外，本文中所使用的术语和短语不是限制性的，而是提供电路和方法的可理解的描述。

首先转到图1，示出具有包括控制设备在内的多个设备的系统的示例性框图。根据图1的示例性系统100，多个设备102-106例如可以是电子设备并且可以如图所示地被布置在群集中，多个设备102-106被配置为彼此通信并且与在群集设备外部的一个或多个设备进行通信，如下面将更详细描述的。如下面将更详细描述的，设备102-设备106的群集中的多个设备的附加设备可能在控制设备120的视野(FOV)之外，但是使用计算机视觉技术将其包括在该多个设备中。根据一种实现，多个设备可以是具有显示和输入电路/输出电路的数字相框，其能够检测对多个设备中的一个或多个设备的输入或生成输出。更具体地，设备102-106中的每个设备包括控制电路108和一个或多个输入设备或输出设备，一个或多个输入设备或输出设备在这里被示出为多个输入电路或输出电路111-114。举例来说，输入电路可以包括相机、麦克风、运动检测器、深度传感器、光传感器、温度传感器或用于接收信号或检测多个传感器附近的区域中的状况的任何其他输入电路。除了用于显示图像的显示器或用于示出独特图像的介质(例如，被刻在设备上的激光(laser engraved on the device)或被放置在设备上的纸张图像)之外，设备中的每个设备还可以包括输出设备，例如一个或多个扬声器或用于显示视觉反馈的例如LED灯等。可以与任何类型的图像捕捉设备(例如，智能电话、平板计算机或具有相机或其他图像检测电路的任何其他类型的电子设备)耦接的控制设备120可以被用于捕捉多个设备104-106和可能在控制设备120的FOV之外的其他设备的图像。

多个设备中的每个设备可以包括一个或多个通信电路，以实现设备之间的通信以及与控制设备120的通信。例如，每个设备102-106可以包括通信电路116，以实现设备之间的通信。每个设备102-106还可以包括通信设备118，以与控制设备120通信。即，控制设备120可以与多个设备中的一个或多个设备通信，以基于与多个设备的布置和能力有关的信息来控制输入电路或输出电路，所述信息从由控制设备所捕捉的多个设备的图像确定。将参考图2更详细地描述控制设备的示例。尽管每个设备包括2个通信电路116和118，但是应该理解，可以实现单个通信电路来实现与其他设备以及与通信设备的通信。即，通信电路116不仅可以实现与其他设备的通信，还可以实现与控制设备120的通信。此外，虽然每个设备可以包括实现与控制设备120的通信的通信电路118，但是应当理解，通信电路118可以在设备102-106中的一个设备中实现，其中，该设备将充当设备102-106的集中式通信集线器，以用于实现与控制设备120的通信。通信电路116和118可以实现任何类型的有线或无线通信协议。这些设备可以通过Wi-Fi、RF、Zigbee、Z-wave、近场通信(NFC)或蓝牙协议(例如包括具有网状网能力的蓝牙协议)相互通信或与控制设备通信。

由控制设备120捕捉的图像可以由控制设备120进行本地分析或从控制设备进行远程分析，以确定与设备102-106的朝向、多个设备相对于彼此的关系、以及设备的属性有关的信息，例如，设备的能力，包括多个设备上输入电路和输出电路的数量、类型和位置。控制设备120可以是具有用于检测多个设备的朝向、多个设备相对于彼此的关系、以及多个设备的属性的一个或多个传感器的任何类型的设备。举例来说，控制设备120可以是具有相机和其他传感器的智能电话或其他电子设备，其可以有助于确定场景内的要素的深度或场景内的要素的相对位置。

应当注意，在某些情况下，控制设备可以作为多个设备的一部分操作以提供输入设备和输出设备，并且因此从与多个设备交互的用户接收输入或向用户生成输出。然而，将控制设备用作多个设备中的另一个设备可以取决于其处于静止状态还是运动状态。在静止状态下，控制设备可以充当群集中的设备。例如，在环绕声应用中，控制设备可以充当另一个“扬声器”(例如智能电话的扬声器)。这假设在校准群集的过程中，控制设备保持在校准点的特定范围内(位置和朝向与校准发生时保持不变)。假设人员正在房间中的位置(Xp，Yp)进行校准，并且控制设备在(Xs，Ys，Zs)(三维点)处，则如果需要将控制设备作为群集的一部分来充当另一个设备，那么其需要在校准的原点位置(Xs，Ys，Zs)的一定范围之内。当控制设备移动并且群集的全部或一部分处于其相机的视野之内时，它仍可以继续作为群集的一部分，从而提供空间相关的输出。当控制设备正在移动但是群集不在其相机的视野之内时，它就不可以再作为群集的一部分，但是它可以充当与群集的接近度无关地控制群集的设备。所述控制可以包括例如配置应用的类型或修改声场的行为。

应当注意，在一个实施例中，可以通过改变诸如灵敏度、频率或其他与声学有关的参数之类的设置来重新校准系统。还可以根据应用，例如从语音检测/定位/输入切换到手势或环绕声，来执行重新校准以改变或调整灵敏度空间/声场。不同设备的信息及其空间关系已经被存储在第一个实例(即原始校准)中。应用切换可能会根据用户的意图而发生，并且可以由控制设备、群集中的设备或处理信息或将信息传输到群集中的其他部分的某个其他的设备来控制。声场的这种重新校准或修改可以基于原始校准，因为在校准中会计算设备之间的空间关系以及它们各自的能力。

对于给定的空间上分离的自由的声音设备的群集，其包括诸如麦克风或扬声器之类的声音组件，下面阐述的方法和系统使用视觉线索和空间关系作为附加输入来提高校准的质量和速度，并降低校准过程的复杂性，并且提高体验的可用性，使得消费者可以针对他们自己的设备设置执行校准。根据一些实现，所述方法和系统可以使用计算机视觉(CV)和增强现实(AR)来以空间图的形式计算设备的群集之间的空间关系，空间图可以被存储在本地存储器或云中。空间图还可以不仅在设备自身的空间之内，而且在整个设备的群集的空间之内计算每个声音组件(扬声器和/或麦克风)的相对位置。当所有要被校准的设备不在控制设备的视野中时，可以在其他时间或帧处捕捉其他设备的位置，并通过诸如同时定位和地图绘制(SLAM)之类的解决方案将它们绑在一起。然后可以将该空间图用作校准过程的输入。而且，由于标识了不同类型的设备，因此可以确定其组件中的每个组件的声学属性，从而为校准创建共同的基础。

在一个实施例中，校准过程可以执行常规的声音校准子过程，以分析声场、估计针对规范化场(normalized field)所需要调整的声场中的区域、使用空间图来定位会影响所述区域的相应的扬声器和麦克风、并对其进行修改直到获得期望的结果为止。可以重复之前的步骤，直到群集中的所有设备都被规范化声场包围为止，规范化声场是3D区域。在另一个实施例中，校准过程可以执行类似的子过程来调整设备群集的声场以获得包括非统一场的期望的场。

此外，通过绘制设备的空间图，并且了解在尚未进行设备的校准的情况下其声学配置(即输入电路和输出电路的类型和位置)，该图给出各个声场如何彼此相互作用的参考。这允许控制设备针对广泛范围的应用，推断出哪里是给定的设备布置的最佳的交互点或接收点。多个设备中的一个设备可以检测到用户正与该设备交互，该设备将成为激活的设备。例如，可以确定用户在设备的前面，并且因此在激活的设备的显示器上为用户提供信息。因此，该方法和系统不仅通过使用视觉线索和空间关系来简化具有声音能力的设备的校准过程以提高校准的速度和质量，而且还通过群集允许更大范围的应用。

现在转到示出控制设备的示例性框图的图2。示例性控制设备120可以是耦接到一个或多个成像设备以捕捉多个设备的图像以校准多个设备的任何类型的电子设备，如下面将更详细描述的。作为控制设备120的实现，移动设备200可以包括耦接到多个相机204和205的处理器电路202。移动设备200可以是适于发送和接收信息的任何类型的设备，例如智能电话、平板计算机或接收或提供信息的其他电子设备，例如可穿戴设备。处理器电路202还可以是ARM处理器、X86处理器、MIPS处理器、图形处理单元(GPU)、通用GPU或被配置为执行存储在存储器中的指令的任何其他处理器。处理器202可以在一个或多个处理设备中实现，其中，处理器可以是不同的。例如，电子设备可以例如包括中央处理单元(CPU)以及GPU。

处理器电路202可以耦接到显示器206，用于向用户显示信息。处理器电路202还可以耦接到存储器208，存储器208存储与数据有关的信息或与实现目标相关联的信息。存储器208可以被实现为处理器电路202的一部分，或者可以被实现为除处理器的任何高速缓冲存储器之外的部分，这是公知的。存储器208可以包括任何类型的存储器，例如固态驱动器(SSD)、闪存、只读存储器(ROM)或提供长期存储器的任何其他存储器要素，其中，存储器可以是电子驱动器的任何类型的内部存储器或可由电子设备访问的外部存储器。通过提供本地存储器，不会泄露用户可能希望保持私密性的用户偏好和其他信息。

还提供用户接口210，以使用户能够输入数据和接收数据。某些活动追踪可能需要用户的手动输入。用户接口可以包括通常在诸如智能电话、智能手表或平板计算机之类的便携式通信设备上使用的触摸屏用户接口，以及诸如扬声器和麦克风之类的其他输入/输出(I/O)电路。用户接口还可以包括用于输入或输出数据的设备，这些设备可以通过电连接器或通过无线连接(例如Wi-Fi、RF、Zigbee、Z-wave、近场通信(NFC)或蓝牙连接)被附接到移动设备。用户也可能能够登录到与应用相关联的账户，该账户跟踪用户实现目标的进度。

处理器电路202还可以耦接到接收输入数据或提供数据的其他电路，包括各种传感器211、惯性测量单元(IMU)212和用于活动追踪的全球定位系统(GPS)设备213。传感器211可以包括与相机结合或与相机分离的任何类型的传感器，其可以检测人的位置或运动(例如用于手势检测等)。惯性测量单元(IMU)212可以提供与设备的运动或朝向有关的各种信息，而GPS 213提供与设备相关联的位置信息。传感器可以是移动设备的一部分或被耦接到移动设备，例如可以包括光强度(例如环境光或UV光)传感器、接近传感器、环境温度传感器、湿度传感器、心脏速率检测传感器、皮肤电响应传感器、皮肤温度传感器、气压计、速度计、高度计、磁力计、霍尔传感器、陀螺仪、WiFi收发器或提供与实现目标有关的信息的任何其他的传感器。处理器电路202可以通过输入/输出(I/O)端口214或被耦接到天线218的收发器216来接收输入数据。尽管以示例的方式示出图2的控制设备，但是应当理解，可以实现附加的要素或要素的不同组合以提供设备的校准。

现在转到图3-图5b，多个设备可能适于接收输入，这些输入作为示例被示出为图3中的手势或者图4中的语音输入。根据图3和图4的示例性实现，三个设备302-306具有一个或多个输入电路或输出电路，这里作为示例示出为第一电路308、第二电路310、第三电路312和第四电路314。属于设备302的第一电路至第四电路308-314可以包括输入电路或输出电路的任何组合，并且可以包括作为组合的输入电路/输出电路的电路。尽管在图3-图5b的示例性实施例中将第一电路至第四电路308-314示出为分布在设备的边缘附近，但是应当理解，可以在设备上实现不同数量的输入电路和输出电路并且在设备中以不同配置和在不同位置中实现不同数量的输入电路和输出电路。

如图5a和图5b所示和将在下面进行更详细的描述的，可以对输入电路和输出电路进行校准，以提供场(在示例中由虚线定义)，在该场中输入电路通常会检测输入(例如语音或手势)或输出电路将生成输出(例如声音输出或视觉输出)。更具体地，如图5a所示，各个设备302-306具有对应的接收输入信号或生成输出信号的场502-506。如果不进行校准，则各个声场可能会相互干扰。但是通过利用设备的各输入电路和输出电路的空间关系的知识进行校准，可以创建针对多个设备的声场508，如图5b中的虚线所示。在输入电路在设备302-设备306上实现的情况下，设备上的至少一个输入电路将检测输入，例如，相机或其他传感器将检测例如与在设备302-306的前面的人的手势相关联的特定运动，或者麦克风将检测声音，例如来自设备302-306旁的人的语音。即，用作输入传感器的输入电路中的一个输入电路将检测由虚线定义的声场508中提供的输入，或者由虚线定义的声场508中的人更可能检测到来自多个设备的输出，例如听到声音。

取决于正利用所述设备实现的应用，可能需要不同种类的声场，范围从完全均匀的区域(uniform region)到不均匀的(具有在策略上更高的灵敏度和其他参数的区域)。与在不知道设备之间的空间关系和外部环境的情况下执行校准时不同，使用计算机视觉来推断用于校准的空间关系允许将每个设备视为单个虚拟传感器或音频组件，因此其组成真实的音频组件和/或视觉组件的组。

因此，校准技术可以允许更好和对用户更友好的校准过程，并且可以对消费电子领域的多个应用领域产生影响。群集周围的分布良好且规范化的执行区域使应用能够适合于例如接收语音输入和手势输入。例如，可以基于语音定位来改进基于语音输入的应用。在语音输入场景中，对单个设备讲话不是问题，因为该设备始终在监听并且会响应语音输入。然而，在使用多个设备的情况下，确定用户正在对其讲话的特定设备可能会有问题。在没有任何声音定位的常规布置中，所有设备都可能被唤醒，因此复制语音检测的结果。然而，通过与分布良好且规范化的执行区域相关联的声音定位，可以估计最接近用户的设备以及被定向到该设备的目标语音命令。例如，还可以使用多普勒效应来检测手势输入，例如通过使用发射高频声音的多个麦克风和扬声器。

然而，交互的距离受设备能力的限制。此外，基于设备之间的距离和校准质量，可能在这些设备之间的区域中的感应场中存在间断。涵盖设备的群集中的所有设备的分布良好且规范化的执行区域将实现更大范围的交互。这样的手势可以包括离散输入(discreteinput)(例如，挥动)或确定的输入(absolute input)(例如，指向)。例如，用户可以指向一个显示器，抓取该显示器中显示的图像，移动他们的手以指向群集中的另一个显示器，然后将图像放到那里。使用涵盖整个群集的分布良好的感应系统，可以最好地实现这种交互。

现在转到示出所传送的信号在多个麦克风处的示例性接收的图6a、图6b和图7。图6a示出音频接收器(例如，麦克风)和单个发送器Tx的布置，每个音频接收器具有与空间中的特定点的特定距离，单个发送器Tx发射普通的音频信号。音频信号以及其他形式的波信号在空气、表面或普通传导介质中具有特定的速度。为了简单起见，图6a示出2D空间中的布置，但是本领域普通技术人员应当了解，该布置可以扩展到3D空间。当音频信号从在特定点处的发送器Tx发出时，它需要一些时间以到达接收器，例如麦克风602(Mic 1)、麦克风604(Mic 2)、麦克风606(麦克风3)和麦克风608(Mic 3)。假设每个接收器相对于位于空间的原点的发送器(Tx)610具有不同的距离(对于Mic 1-Mic 4被分别指定为R1-R4)，则由麦克风中的每个麦克风所接收到的信号将在时间上偏移，然后在频域中将是相移的。也就是说，接收信号之间是相同的，但是有一个延迟，因为信号形状在设备之间将是相似的，所以忽略信号衰减。在图6b中示出以时间频谱示出每个麦克风的信号的更详细的示例。在接收器处接收到的信号中的每个信号都有时间延迟，这取决于从接收器到发送器Tx的距离。在该示例中，由于Mic 1更靠近发送器Tx，因此它首先拾取如波形612所示的信号，其次是Mic 3，如波形616所示，具有延迟Δ3，其次是Mic 2，如波形614所示，也具有延迟Δ3，然后是Mic 4，具有延迟Δ4，如波形618所示，其中Δ2、Δ3和Δ4大于Δ1。同样，在图6b中，在图的右侧示出组合音频信号620，其根据图6a的所有麦克风的总和生成。利用从麦克风接收到的信号，可以获得时间和频率的差异以及其他信号参数。信号差异允许在空间中对音频源的声音定位，在此示例中，由于使用了时间延迟差异，因此被称为TOA(到达时间)。知道了麦克风的位置，并且知道了每个接收到的信号的时间延迟的差异，就可以对源进行定位。声源定位的另一种实现如图7所示，其中使用角度和方向代替时间(如图6a和图6b所示)，称其为DOA(到达方向)，而不使用时间差。如图7所示，分别检测到接收器Rx1、Rx2和Rx3中的每个接收器针对发送器Tx的角度Θ1、Θ2和Θ3。应当注意，可以应用其他的定位方法，而不仅限于声音范畴(acoustic domain)。这样的方法可能是最大似然(ML)技术、多信号分类(MUSIC)技术、最小方差无失真响应(MVDR)技术、飞行时间(ToF)等。

声源定位的概念在需要校准的应用中很重要，这些应用是例如检测控制设备相对于设备的群集有多远、或者设备的不同布置如何影响声音组件(麦克风或扬声器)彼此之间的交互。然而，对声音信号如何传播以及如何干扰其他组件的分析消耗大量资源，并且根据环境类型而变化，从而导致易于出错的分析和校准。此外，在一个设备与其他设备交互的情况下，重要的是要知道这些其他设备的类型及其位置。因此，为了检测这样的组件如何与附近的其他组件起作用以校准各个不同的声场，能够了解这些设备的空间布置、以及识别这些设备并且收集这些设备和设备固有的声音组件的信息的方法是有益的。

现在转到示出控制设备捕捉多个设备的图像并且确定所捕捉的设备的相对位置的示例的图8和图9。如图8所示，设备302-306被控制设备802捕捉，控制设备802例如可以是智能电话。如在控制设备802的显示器804上所示，图像部分806、图像部分808和图像部分810分别与设备302、设备304和设备306相对应。在一个实施例中，设备302-306中的每个设备在视觉上彼此不同，并且展示出被称为图像目标的唯一识别图案。图像目标可以是张贴或安装在设备上的物理图像，也可以是设备显示的数字图像。网络中的所有设备(包括控制设备802)均可访问这些图像目标的参考图像。在一个实施例中，设备302-306是具有网络能力的，并且可以与控制设备802保持恒定通信，并且可以发送具有诸如设备ID、设备型号和/或类型、设备尺寸、网络地址、当前图像目标的引用名称、相应的图像目标的URL、输入组件或输出组件的数量及其相对位置、以及它们的参数(例如尺寸、范围、灵敏度或频率范围等)的综合信息的更新。然后，控制设备802掌握来自这些设备的所有信息，从磁盘或从提供的URL访问参考图像，并使用计算机视觉技术扫描其图像传感器输入，以匹配参考图像和那些图像目标。当找到匹配时，如上所述地渲染图像部分806、图像部分808和图像部分810。此外，3D计算机视觉技术可用于比较参考图像和已捕捉的图像目标，计算相互转换所需的透视变换，并且估计图像目标以及因此对应的设备302-306相对于控制设备802中的图像传感器的3D位置、朝向和比例。可以相应地确定设备302-306中的任何一个设备与控制设备802之间的距离。在设备302-306不具有物理显示器或不能提供图像目标的一个实施例中，可以使用其他识别技术。一个示例是将通用计算机视觉与对象识别相结合，以识别FOV中的设备类型。在识别不同类型的设备之后，设备302-306中的每个设备以时分多路复用的方式发射特定的声音信号。即，为每个设备分配特定的时间来发射用于进行识别的特定的声音信号。

一旦获得设备302-306相对于802中的图像传感器的各个3D位置，就可以推断出它们相对于彼此的相对位置和朝向以创建空间图。空间图允许计算由控制设备802捕捉的群集中的设备之间的距离。由于设备302-306中的每个设备都是刚体，其内部组件中的每个内部组件都位于主体的框架之内的固定位置中，因此我们事先知道每个组件相对于特定设备的框架的相对位置和朝向。将关于组件相对于其主机设备的位置和朝向的信息包括到空间图中，将其与设备相对于群集的相对位置和朝向相结合，可以确定每个输入组件或输出组件(例如一个或多个麦克风或扬声器)相对于群集的相对位置和朝向。实质上，可以使用空间图来计算群集中的任何设备的任何输入组件和/或输出组件与群集中的任何其他设备的任何其他输入组件和/或输出组件之间的空间关系。根据一种实现，可以基于所确定的设备的边缘之间的距离来确定多个设备的关系，如图9中的控制设备的显示器的放大视图所示。例如，设备302(由图像部分806表示)和设备304(由图像部分808表示)之间的关系可以由设备的侧边边缘之间的距离d1和设备的顶部边缘之间的距离d2来表示。类似地，设备304(由图像部分808表示)和设备306(由图像部分810表示)之间的关系可以由设备的侧边边缘之间的距离d3和设备的顶部边缘之间的距离d4来表示。

现在转到图10a和图10b，该图示出确定控制设备的FOV之外的设备的关系的过程。即，控制设备1002可能能够捕捉在控制设备的FOV中的3个设备1004-1008，但是不能够捕捉FOV之外的设备1012-1014。图像目标对于估计设备1004-1014相对于控制设备1002的位置和朝向很重要。在图10a中，按照使设备1004-1008而不使设备1012-1014在设备1002的FOV之内的方式来定位和定向设备1002。由于设备1004-1008在1002的FOV范围之内，因此使用其图像目标来估计其位置和朝向。然而，由于设备1012-1014的图像目标在1002的FOV之外，所以无法估计它们的位置和朝向。当设备1002移动并向右转时，可以计算设备1012-1014而不是设备1004-1008的位置和朝向。因此，估计包括设备1004-1014的整个群集的设备的位置和朝向变成困难的任务，特别是因为控制设备1002也已经移动。最近，在计算机视觉中已经开发了新算法，例如同时定位和地图绘制(SLAM)，其允许具有相机的设备在未知环境中四处移动，同时记录图像以将这些图像拼接在一起，以生成环境的3D模型，并且计算此类设备所经过的路径及其相对于环境的位置和朝向。因此，如图10b所示，当控制设备1002移动并从一个位置转向另一位置时，它可以确定从其起点到终点所需的相关变换。利用所确定的相关变换信息，设备1004-1008的位置和朝向可以与设备1012-1014的位置和朝向联系在一起，从而允许生成这些空间分离的设备1004-1014的群集的空间图而无需在单个帧中全部捕捉这些设备。因此，可以确定设备1012-1014相对于设备1004-设备1008的位置，这在设备散布在不同的墙壁上且彼此垂直或散布在大房间中时非常有用。举例来说，可以使用例如机器学习来将设备的图像与已知设备进行比较，以确定设备的类型，从而确定设备的能力。

现在转到图11，流程图示出控制布置中的多个设备的方法。根据图11的方法，该过程在框1102处开始，然后在框1104处使用成像设备(例如，如上所述的控制设备)识别设备。识别过程可以使用计算机视觉技术、图像识别和/或物体识别的组合。设备的识别持续到在框1106处找到设备为止。一旦识别出设备，就建立控制设备与群集中的设备之间的通信，以交换设备的信息，例如声音组件配置、声音组件数目或其声学参数。然后在框1108处，根据图像推断出设备的相对位置。然后在框1110处执行输入设备和输出设备的单个的设备内校准，并且在框1112处分析声场以寻找不一致区域。如果在框1114处发现不一致区域，则在框1116处识别对应的组件和感兴趣区域，并且在框1112处继续分析声场以寻找不一致区域。如果在框1114处没有其余的不一致区域，则在框1118处结束校准。

现在转到示出用于在传感器处接收输入的场或使用校准来生成输出的场的示图的图12-图14b。在图12中，控制设备已经识别出群集中的各个设备302-306中的每个设备，并且准备分析和获得与相应的设备302-306相关联的各个声场1202-1206。在确定设备302-306的3D布置以及此类设备及其声音组件的声学参数的信息之后，可以确定被示出为声场1208的经规范化和校准的场。随着诸如鼠标、轨迹薄、触摸板、触摸屏等之类的2D接口的普及，用户已经习惯于在统一的矩形空间内进行交互。如果声场是不均匀的、非矩形的形状，则对于用户、尤其是对于使用手的准确位置作为手势输入的应用而言，交互可能会变得非常混乱。因此，在一个实施例中，修改声场来扩展某些区域并压缩某些区域是有益的，以使其尽可能接近矩形或其他形状，这取决于希望的设备的群集的应用类型。还应该注意，确定设备相对于彼此的相对位置的方法可以被应用于3维(3D)布置。

在图13a和图13b中，示出识别并执行校准以得到群集的期望声场的过程。如上面的图12所述，控制设备在识别设备及其声音组件之后，获得规范化的场。利用来自每个设备302-306的每个组件的信息，可以通过识别影响期望群集声场的特定区域的组件，以迭代的方式来实现从各个声场1202-1206得到期望声场1208的过程。例如，图13a示出群集声场1208的特定区域1302。通过使用包括关于设备及其组件、以及它们在空间中的布置的已收集的信息的特殊地图，可以将与设备304相关联的声音组件1306和与设备306相关联的声音组件1308识别为影响特定区域1302的组件。因此，可以修改每个已识别的组件的声学参数，以改变声场1208上的区域1302的效果。这些参数可以是但不限于增益、灵敏度和频率响应等。

图14a和图14b示出声场的3D性质。图14a示出说明设备302-306与相关联的声场1402之间的关系(由虚线示出)的正视图，并且图14b示出具有相关联的声场1402的设备302-306在另一个维度上的侧视图(由虚线示出)。在诸如手势识别的情况下，不仅声场的X-Y扩展很重要，而且声场的深度也很重要，因为它可以定义用户可以与群集执行手势交互的最大距离是多少。类似地，在环绕声音乐系统的情况下，用户不必与扬声器的群集在同一平面上，因此重要的是在包括垂直于群集所在的平面的一个维度的所有维度上修改声场。

现在转到图15a和图15b，示例性示图示出可以如何基于校准来创建与多个设备相关联的不同的场。设备的群集中的每个设备可能具有一个或多个音频组件。例如，在包括麦克风的音频组件的情况下，在常规布置中，音频组件的灵敏度被规范化为相同水平，因为在大多数应用中，需要一致且规范化的感应区域。然而，使用上述校准技术，有可能根据上下文或应用在稍后修改声学参数(例如强度、增益或灵敏度)，以调整组件周围的声场。当组件是组件的阵列的一部分时，修改这些参数可以作为整形群集的声场的方法，例如拉伸或调整声场以在特定方向上分布。可以通过动态硬件(HW)和/或软件(SW)调谐，通常通过数字信号处理器(DSP)或设备的软件层，来实现与声学性能有关的此类参数的修改。

图15a示出用于设备302-设备306的群集的规范化声场，其中，该声场是均匀的并且覆盖整个群集，但是没有考虑周围环境或希望的应用。例如，在图15b中，当应用专注于与设备的群集的紧密手势交互时，希望具有窄交互区。在该特定示例中，通过控制设备与群集中的设备通信，以缩小群集边缘上的交互空间。类似于图14a和图14b中描述的过程，控制设备检测并且选择需要修改的声音组件，在这种情况下，是设备306的组件1502和组件1504，以创建被正确限制的声场(即，具有如图所示的在多个设备的右边的更小的声场)。控制设备与设备306通信，使设备306降低组件1502和组件1504的增益和灵敏度。在图15c中示出另一个示例，其中，该应用是用于创建向右突出的声场(即，具有如图所示的在多个设备的右边突出的声场)，以用于实现从设备的群集聆听音乐。在一个家庭示例中，群集可能没有被放置在中央，而是可能移向了特定的一边。在音乐聆听体验中，可能不希望以集中式的形式(即，群集的中心是声音集中的位置)来产生声音，而是朝向此类群集的右边。在这种情况下，本发明的实施例允许用户使用控制设备，通过增加设备306的音频电路l502和音频电路1504的增益和灵敏度来选择将从群集输出的声音扩展到集中在设备的右边。

现在转到图16，示例性框图示出房间中的设备的协调，描绘了环绕声系统。通常，此类系统附带有一组卫星扬声器，这些卫星扬声器可以一起工作以提供统一的环绕声体验。设计这些系统时要考虑到特定的对称空间布置，并根据该假定的布置来设置这些扬声器上各种参数(例如强度)的配置。不幸的是，消费者的生活空间可能变化很大，从而使其难以预测。用户通常可以将卫星扬声器放置在任何可能的地方，从而导致不对称的空间布置和次佳的声音体验。根据图16的示例，诸如电视(TV)之类的显示设备1602可以被实现为具有多个音频设备(此处被示出为被分布在房间中的音频设备1604-1612)，其中，显示设备1602的观看者(这里用X表示)在桌子1614和沙发1616之间。使用上面的校准过程和空间图，系统可以了解扬声器的空间布置中的这种不对称性，并重新计算可以校正这种布置并提供均匀的声音体验的强度。此外，通过分析扬声器的布置，可以计算“最佳位置”，即声音可能所在的中心点。在另一个实施例中，基于沙发1616相对于电视1602和音频设备1604-1612的位置，可以在电视1602和统一设备1604-1612处执行调整，使得沙发成为最佳位置。

现在转到图17，流程图示出控制多个设备(例如如上所述的设备组中的设备)的另一种方法。根据图17的管理多个设备的方法，在框1702处接收包括多个设备的图像。在框1704处，基于对图像的分析来确定多个设备的空间图。空间图可以包括多个设备中的每个设备相对于多个设备中的另一个设备的位置。在框1708处，可以基于空间图来调整用于接收输入的多个设备中的至少一个设备的传感器，以修改与多个设备相关联的声场。

根据图17所示的方法，传感器可以包括用于检测声音输入的麦克风或用于检测视觉输入的相机中的至少一项。视觉输入可以包括用户与多个设备进行交互的手势。该方法还可以包括：响应于检测到的声音输入，确定多个设备中的激活的设备；或者响应于输入，通过基于空间图和期望声场，使用定位来确定多个设备中的激活的设备，以调整传感器。空间图可以标识多个设备中的每个设备的每个音频组件的位置，并且可以基于空间图来调整多个设备中的至少一个设备的音频组件。调整多个设备中的至少一个设备的传感器可以包括：基于应用的需求针对多个设备创建期望声场。该方法还可以包括：基于空间图来校准多个设备；以及，基于用户的位置来重新校准多个设备。

可以使用如所描述的图1-图15c中阐述的系统和技术或者使用一些其他合适的系统或技术来实现图16和图17的方法的各种要素。尽管描述了该方法的特定要素，但是应当理解，可以根据图1-图15c的公开内容来实现该方法的附加要素或与要素有关的附加细节。

上面阐述的系统和技术允许以下应用：其中实现例如但不限于手势点测(gesturespotting)或语音定位的多个声音设备需要协同工作，因此需要均匀的感应区域或偏置/集中的聆听区域。通过使用基于成像的解决方案来识别和定位设备及其音频组件的相对位置，可以实现设备的更鲁棒和精确的定位，从而使校准过程更加精确并且执行得更快。使用基于图像的解决方案进行校准还允许识别设备及其特征，例如麦克风或扬声器的多样性、组件的类型或这些组件相对于较大群集的相对位置。诸如设备的检测、体积、灵敏度之类的特征的规范化也是可能的。

因此可以了解，已经描述了管理多个设备的新的系统和方法。本领域技术人员将了解，将可以看到存在许多包含所公开的发明的替代物和等同物。因此，本发明不受前述实现的限制，而仅受所附权利要求的限制。

Claims

1.一种管理多个设备的方法，所述方法包括：

接收包括多个设备的图像，其中所述多个设备中的每个设备包括从用户接收输入的传感器；

基于对所述图像的分析，确定所述多个设备的空间图，其中，所述空间图包括所述多个设备中的每个设备相对于所述多个设备中的另一个设备的位置；以及

基于所述空间图来调整所述多个设备中的至少一个设备的用于从用户接收输入的传感器，以修改与所述多个设备相关联的声场。

2.根据权利要求1所述的方法，其中，所述传感器包括用于检测声音输入的麦克风或用于检测视觉输入的相机中的至少一项。

3.根据权利要求2所述的方法，其中，所述视觉输入包括用户与所述多个设备进行交互的手势。

4.根据权利要求1所述的方法，还包括：响应于检测到的声音输入，确定所述多个设备中的激活的设备。

5.根据权利要求4所述的方法，还包括：通过基于所述空间图和期望声场，使用定位来确定所述多个设备中的激活的设备，以调整所述传感器。

6.根据权利要求1所述的方法，其中，所述空间图标识所述多个设备中的每个设备的每个音频组件的位置，以及基于所述空间图来调整所述多个设备中的所述至少一个设备的音频组件。

7.根据权利要求1所述的方法，其中，调整所述多个设备中的至少一个设备的用于从用户接收输入的传感器包括：基于需求创建针对所述多个设备的期望声场。

8.根据权利要求1所述的方法，还包括：基于所述空间图来校准所述多个设备。

9.根据权利要求1所述的方法，还包括：基于用户的位置来校准所述多个设备。

10.根据权利要求1所述的方法，其中，所述多个设备包括用于显示图像的多个相框。

11.根据权利要求1所述的方法，其中，接收包括所述多个设备的图像包括：接收在不同视角处拍摄的多幅图像。

12.根据权利要求1所述的方法，其中，调整所述多个设备中的至少一个设备的用于从用户接收输入的传感器以修改声场包括：创建均匀的声场。

13.一种电子设备，包括：

存储指令的存储器；以及

处理器，执行指令以：

接收包括具有传感器的多个设备的图像，其中所述多个设备中的每个设备包括从用户接收输入的传感器；

14.根据权利要求13所述的电子设备，其中，所述传感器包括用于检测声音输入的麦克风或用于检测视觉输入的相机中的至少一项。

15.根据权利要求14所述的电子设备，其中，所述视觉输入包括用户与所述多个设备进行交互的手势。

16.根据权利要求13所述的电子设备，还包括：响应于检测到的声音输入，确定所述多个设备中的激活的设备。

17.根据权利要求16所述的电子设备，还包括：通过基于所述空间图和期望声场，使用定位来确定所述多个设备中的激活的设备，以调整所述传感器。

18.根据权利要求13所述的电子设备，其中，所述空间图标识所述多个设备中的每个设备的每个音频组件的位置，以及基于所述空间图来调整所述多个设备中的所述至少一个设备的音频组件。

19.根据权利要求13所述的电子设备，其中，调整所述多个设备中的至少一个设备的用于从用户接收输入的传感器包括：基于需求创建针对所述多个设备的期望声场。

20.根据权利要求13所述的电子设备，还包括：基于所述空间图来校准所述多个设备。

21.根据权利要求13所述的电子设备，还包括：基于用户的位置来校准所述多个设备。

22.根据权利要求13所述的电子设备，其中，所述多个设备包括用于显示图像的多个相框。

23.根据权利要求13所述的电子设备，其中，接收包括所述多个设备的图像包括：接收在不同视角处拍摄的多幅图像。

24.根据权利要求13所述的电子设备，其中，调整所述多个设备中的至少一个设备的用于从用户接收输入的传感器以修改声场包括：创建均匀的声场。

25.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质中存储有对处理器可执行以执行方法的指令加以表示的数据，所述方法包括：

26.根据权利要求25所述的非暂态计算机可读存储介质，其中，所述传感器包括用于检测声音输入的麦克风或用于检测视觉输入的相机中的至少一项。