CN112673647B

CN112673647B - 用于配置分布式麦克风系统的方法和控制器

Info

Publication number: CN112673647B
Application number: CN201980061655.0A
Authority: CN
Inventors: J·E·马埃什; B·M·范德斯勒伊斯; P·戴克斯勒
Original assignee: Signify Holding BV
Current assignee: Signify Holding BV
Priority date: 2018-09-20
Filing date: 2019-09-03
Publication date: 2023-03-28
Anticipated expiration: 2039-09-03
Also published as: US11871189B2; CN112673647A; ES2922540T3; JP2021532697A; EP3854109A1; JP7217572B2; EP3854109B1; US20210385574A1; WO2020057963A1

Abstract

公开一种用于配置分布式麦克风系统的方法（400）。该分布式麦克风系统包括经由网络连接的多个麦克风设备。该方法（400）包括：分析（402）从多个麦克风设备之中的第一麦克风设备（110）接收的第一历史音频数据（112）；分析（404）从多个麦克风设备之中的第二麦克风设备（120）接收的第二历史音频数据（122）；比较（406）第一历史音频数据（112）与第二历史音频数据（122），以识别（408）第一历史音频数据（112）与第二历史音频数据（122）之间的差异；以及基于第一历史音频数据（112）与第二历史音频数据（122）之间的差异，分配（410）优先级级别至第一麦克风设备和/或第二麦克风设备，其中优先级级别指示用于分析分别利用第一麦克风设备和/或第二麦克风设备记录的未来音频数据的优先级规则，和/或其中优先级级别指示用于经由网络分别从第一麦克风设备和/或第二麦克风设备传送未来音频数据的通信规则。

Description

用于配置分布式麦克风系统的方法和控制器

技术领域

本发明涉及用于配置分布式麦克风系统的方法，并且涉及用于执行该方法的计算机程序产品。本发明进一步涉及用于配置分布式麦克风系统的控制器。

背景技术

智能扬声器和声控系统在家庭领域中是众所周知的。这些系统包括监听来自用户的音频输入的一个或多个麦克风设备（例如，智能扬声器）。这样的系统使得用户能够通过提供口头控制命令来控制设备或提出问题，于是该系统可以利用答案来响应。如果这个系统包括经由网络连接的两个麦克风设备，则用户命令（例如，“开灯”或“天气预报是什么”或“如何煮鸡蛋”）可以利用这些设备之中的两个或多个设备来拾取。该系统随后确定用户命令/问题在两个麦克风设备上的声音强度，并且该系统选择声音强度在其上面是最高的麦克风设备来执行控制命令或回答问题。如果这样的系统包括多个麦克风设备，则经由网络传送的数据量和所需的计算资源显著地增加。

发明内容

发明人已认识到：随着麦克风设备（例如，遍及（家庭/办公室/室外）空间分布的麦克风）的数量增加，网络流量（traffic）和计算资源的量也增加。因而，为了将声控系统扩大至例如办公室或室外环境，需要附加的措施来减少用于音频数据的通信和/或处理的网络流量和/或计算资源的量。因此，本发明的目的是提供一种分布式麦克风系统，其能够处置来自不同麦克风设备的大量音频数据。

根据本发明的第一方面，该目的利用用于配置分布式麦克风系统的方法来实现，其中分布式麦克风系统包括经由网络连接的多个麦克风设备，该方法包括：

- 分析从多个麦克风设备之中的第一麦克风设备接收的第一历史音频数据；

- 分析从多个麦克风设备之中的第二麦克风设备接收的第二历史音频数据；

- 比较第一历史音频数据与第二历史音频数据，以识别第一历史音频数据与第二历史音频数据之间的差异（difference）；和

- 基于第一历史音频数据与第二历史音频数据之间的差异，分配优先级（priority）级别至第一麦克风设备和/或第二麦克风设备，其中优先级级别指示用于分析分别利用第一麦克风设备和/或第二麦克风设备记录的未来音频数据的优先级规则，和/或其中优先级级别指示用于经由网络分别从第一麦克风设备和/或第二麦克风设备传送未来音频数据的通信规则。

发明人已认识到：通过分析从多个麦克风设备接收的历史音频数据，能够确定麦克风设备的先前使用或至少这些麦克风设备的相关先前使用。基于这个（相关）使用，这些麦克风设备被划分优先级（prioritize），以减少用于分析音频数据的网络流量和/或计算资源的量。

首先，获得来自多个麦克风设备的历史音频数据。历史音频数据可以被本地存储（例如，在中央控制器中，在麦克风设备中，在本地存储器中等等），或者其可以被远程存储并且可以是经由例如互联网而可访问的。在来自多个麦克风设备的历史音频数据已被分析之后，确定来自这些麦克风设备的历史音频数据之间的差异。基于这些差异，优先级级别被分配至第一麦克风设备和/或第二麦克风设备（并随之被分配至来自第一麦克风设备和/或第二麦克风设备的未来音频数据）。通过分配这些优先级级别，一个麦克风设备可以具有与另一个麦克风设备相比而言更高的优先级级别/优先级值。因而，在分配优先级级别之后，来自这些麦克风的未来音频数据由分布式麦克风系统基于优先级级别来处置。优先级级别可以被定义为一个或多个规则，其包括用于处置各自麦克风设备的未来音频数据的指令。优先级级别可以指示用于基于一个麦克风设备的历史音频数据与另一个麦克风设备的历史音频数据相比之间的差异来分析利用那个麦克风设备记录的未来音频数据的优先级规则。例如，这可能导致：第一麦克风设备的（未来）音频数据将在另一个麦克风设备的（未来）音频数据之前被处理，或者更多的处理资源专用于第一麦克风设备的（未来）音频数据。附加地或替代地，优先级级别可以指示用于基于一个麦克风设备的历史音频数据与另一个麦克风设备的历史音频数据相比之间的差异来传送利用那个麦克风设备记录的未来音频数据的通信规则。这是有益的，因为处理来自多个麦克风设备的音频数据所需的计算资源被优化和/或被减少。例如，这可能导致：第一麦克风设备的（未来）音频数据在另一个麦克风设备的（未来）音频数据经由网络被传送之前经由网络被传送，或者某些音频数据以有限的形式经由网络被传送或者甚至根本不被传送。这是有益的，因为从多个麦克风设备传送音频数据所需的网络资源/网络流量被减少。

通信规则可以定义将经由网络从各自的麦克风设备传送的音频数据的允许的数量、频率、等待时间（latency）、质量和/或尺寸。通信规则可以限制经由网络共享的未来音频数据的量。这个限制可以通过限定用于麦克风设备的音频数据共享规则、例如通过减少音频数据的数量和/或质量/尺寸来实现。这可以包括控制音频数据将被共享的方式。例如，这可以包括用于麦克风设备的指令，以指示：该麦克风设备应该本地处理音频数据，并且只共享关于音频数据的信息（例如，对话的文本抄本（transcript）或者上下文相关的信息，诸如人咳嗽、尖叫、说话等等）。这是有益的，因为从多个麦克风设备传送音频数据所需的网络资源被减少。

该方法可以进一步包括将通信规则分别传送至第一麦克风设备和/或第二麦克风设备。在实施例中，其中由例如分布式网络系统的中央控制器执行该方法，中央控制器可以将通信规则传送至各自的麦克风设备，以提供用于从第一麦克风设备和/或第二麦克风设备传送未来音频数据的指令。通信规则可以例如限制经由网络共享的未来音频数据的量。这是有益的，因为从多个麦克风设备传送音频数据至中央控制器所需的网络资源/网络流量被减少。

分析第一历史音频数据的步骤可以包括：分析第一历史音频数据，以识别第一历史音频数据中不同类型的音频。分析第二历史音频数据的步骤可以包括：分析第二历史音频数据，以识别第二历史音频数据中不同类型的音频。该方法可以进一步包括：将第一历史音频数据之中不同类型的音频分类为第一集合的一个或多个音频类别，并将第二历史音频数据之中不同类型的音频分类为第二集合的一个或多个音频类别。优先级级别至第一麦克风设备和/或第二麦克风设备的分配可以进一步分别基于第一集合的音频类别和第二集合的音频类别。音频类别可以例如包括：背景噪声；由（建筑物/室外）基础设施生成的非语音音频；由用户生成的非语音音频；背景语音；用于控制声控设备的话音命令；用于请求声控服务的话音命令；和/或用于触发话音操作的系统、助理或服务的唤醒词。这使之能够区分在不同的麦克风设备上检测到的不同类型的音频并在此基础上对麦克风设备划分优先级。例如，当第一麦克风设备主要记录了背景噪声并且第二麦克风设备主要记录了来自用户的语音时，第二麦克风可以被分配更高的优先级级别。

分析第一历史音频数据的步骤可以包括：分析第一历史音频数据，以识别在第一麦克风设备上第一级别的用户存在。分析第二历史音频数据的步骤可以包括：分析第二历史音频数据，以识别在第二麦克风设备上第二级别的用户存在。优先级级别至第一麦克风设备和/或第二麦克风设备的分配可以进一步基于第一级别的用户存在和第二级别的用户存在。通过分析历史音频数据以辨认与用户相关联的声音诸如用户生成的声音（例如，脚步声音、话音等等）或由个人用户设备生成的声音（例如，铃声、振动、渲染的音频内容），可以确定历史用户存在的级别。如果例如在第一麦克风设备上的用户存在高于在第二麦克风设备上的用户存在，则可以给第一麦克风设备分配比第二麦克风设备更高的优先级级别。基于麦克风设备上的历史用户存在来确定优先级级别是有益的，因为其减少其中较少的人已经（并且可能将）存在的音频数据的网络资源和/或计算资源的量。

该方法可以进一步包括：

- 基于第一历史音频数据、第二历史音频数据和第三历史音频数据，确定一个或多个用户相对于第一麦克风设备、第二麦克风设备和第三麦克风设备的一个或多个位置；和

- 进一步基于用户相对于第一麦克风设备、第二麦克风设备和第三麦克风设备的位置，将优先级级别分配至第一麦克风设备、第二麦克风设备和/或第三麦克风设备。

换句话说，可以基于用户被定位在区域中的位置来进一步确定优先级级别。用户相对于第一麦克风、第二麦克风和第三麦克风的历史位置可以进行比较并被用于确定与用户相关联的声音的强度，以便确定用户相对于麦克风的距离和方向，从而（例如，通过使用三边测量）确定用户的确切位置。基于麦克风设备上的历史用户位置来确定优先级级别是有益的，因为其减少用于其中较少的人已经（并且可能将）存在的音频数据的网络资源和/或计算资源的量。

该方法可以进一步包括：

- 基于一个或多个用户随时间的位置，确定一个或多个用户随着时间的推移相对于第一麦克风设备、第二麦克风设备和第三麦克风设备的一个或多个轨迹，

- 进一步基于一个或多个用户的一个或多个轨迹，将优先级级别分配至第一麦克风设备、第二麦克风设备和/或第三麦克风设备。轨迹可以通过确定用户随时间的位置来确定。可以分析多个麦克风的音频数据以识别相类似的声音（例如，脚步声、用户的话音等等），从而确定：它们源自同一用户。通过对这些音频片段（fragment）应用三边测量，能够在某个时刻确定用户的位置。如果这个位置随时间改变，则这指示：用户正在移动。这使之能够检测用户的轨迹（和速度）。可以在其间已记录历史音频数据的时间段内检测多个用户的轨迹。轨迹（和速度）可以用于确定用于麦克风设备的优先级级别。被定位于不经常被一个或多个用户遍历（traverse）的位置/路径上的麦克风设备可以例如被分配比被定位于已被一个或多个用户遍历的位置/路径上的麦克风设备更低的优先级级别。

该方法可以进一步包括：

- 获得第一麦克风设备和第二麦克风设备的位置；和

- 进一步基于第一麦克风设备和第二麦克风设备的各自位置，将优先级级别分配至第一麦克风设备和/或第二麦克风设备。第一麦克风设备和第二麦克风设备的位置可以例如是预定义的，或者可以从（室内/室外）定位系统接收关于这些位置的信息。这些位置可以从（远程）存储器中进行检索。基于麦克风设备的位置来分配优先级级别是有益的，因为一些麦克风设备可以被定位于其中与其他位置相比而言更可能检测到用户生成的音频的位置上。

分析第一历史音频数据的步骤可以包括：分析第一历史音频数据，以便基于第一历史音频数据来识别一个或多个第一用户活动。分析第二历史音频数据的步骤可以包括：分析第二历史音频数据，以便基于第二历史音频数据来识别一个或多个第二用户活动。优先级级别至第一麦克风设备和/或第二麦克风设备的分配可以进一步基于一个或多个第一用户活动和一个或多个第二用户活动。通过分析指示用户活动的音频片段的音频数据，可以从历史音频数据中导出历史用户活动，于是基于在各自的麦克风设备上所识别的活动来分配优先级级别。基于麦克风设备上的用户活动来确定优先级级别是有益的，因为对于某些用户活动而言可能不需要音频数据分析。

该方法可以进一步包括：

- 从与第一麦克风设备和/或第二麦克风设备相关联的存在传感器接收存在信号；和

- 响应于存在信号，分别调整第一麦克风设备和/或第二麦克风设备的优先级级别。存在传感器可以被定位于一个或多个麦克风设备的附近，并且麦克风设备的优先级级别可以在存在传感器被用户触发时进行调整/否决（overrule）。所调整的优先级级别可以在预定的时间段（例如，一分钟、15分钟、一小时、一天等等）期间是有效的，或者调整可以（仅仅）在存在被检测到时是有效的。该方法可以进一步包括：在预定的时间段之后和/或当存在不再被存在传感器检测到时，恢复到以前的优先级级别。例如，如果麦克风设备具有低的优先级级别并且与那个麦克风设备相关联的存在传感器被触发，则可以增加优先级级别。这是有益的，因为这在没有用户存在时节省网络资源和/或计算资源，并且当用户存在时，系统的功能被增加。

该方法可以进一步包括：

- 接收网络的网络容量的指示；和

- 基于网络的网络容量，调整第一麦克风设备和/或第二麦克风设备的优先级级别。网络容量（例如，可用带宽）可以基于网络流量的当前量而改变。基于（当前）网络容量来调整优先级级别以便在网络资源/计算资源和分布式麦克风系统的功能之间创建平衡可能是有益的。

根据本发明的第二方面，该目的利用用于计算设备的计算机程序产品来实现，该计算机程序产品包括计算机程序代码，以便当计算机程序产品在计算设备的处理单元上运行时执行上述方法之中的任何一种方法。

根据本发明的第三方面，该目的利用用于配置分布式麦克风系统的控制器来实现，其中分布式麦克风系统包括经由网络连接的多个麦克风设备，该控制器包括：

- 通信模块，其被配置成：从多个麦克风设备之中的第一麦克风设备接收第一历史音频数据；以及从多个麦克风设备之中的第二麦克风设备接收第二历史音频数据；和

- 处理器，其被配置成：分析第一历史音频数据；分析第二历史音频数据；将第一历史音频数据与第二历史音频数据进行比较，以识别第一历史音频数据与第二历史音频数据之间的差异；并且基于第一历史音频数据与第二历史音频数据之间的差异，将优先级级别分配至第一麦克风设备和/或第二麦克风设备，其中优先级级别指示用于分析分别利用第一麦克风设备和/或第二麦克风设备记录的未来音频数据的优先级规则，和/或其中优先级级别指示用于经由网络分别从第一麦克风设备和/或第二麦克风设备传送未来音频数据的通信规则。

控制器可以被包括在第一麦克风设备中，并且通信模块可以被配置成：从被包括在第一麦克风设备中的麦克风接收第一历史音频数据。这使得第一麦克风设备能够基于两个麦克风设备的历史音频数据之间的差异来确定其自己的（和/或第二麦克风设备的）优先级级别。这是有益的，因为不需要中央控制器来确定（多个）优先级级别。替代地，控制器可以被包括在分布式麦克风系统的中央控制器中。

根据本发明的第四方面，该目的利用一种系统来实现，该系统包括：

- 中央控制器，其包括上述控制器；

- 第一麦克风设备，其被配置成将第一历史音频数据传送至中央控制器；和

- 第二麦克风设备，其被配置成将第二历史音频数据传送至中央控制器。

该系统可以是包括中央控制器的照明系统，并且这些麦克风设备可以被包括在照明系统的照明设备/灯具中。将这些麦克风设备集成在照明系统中是有益的，因为照明系统的照明灯具通常均匀地被分布在整个（办公室/室外）空间，这为声音检测提供良好的覆盖。附加地，照明设备可以为麦克风设备提供电源连接。

应当理解：计算机程序产品、控制器和系统可以具有与上述方法相类似的和/或相同的实施例和优点。

附图说明

参照附图，所公开的系统、设备和方法的上面以及附加的目的、特性和优点通过以下的设备和方法的实施例的说明性而非限制的详细描述将更好地被理解，其中：

图1示意性地显示包括多个麦克风设备和用于配置麦克风设备的控制器的分布式麦克风系统的实施例；

图2示意性地显示多个麦克风设备的实施例，其中一个麦克风设备包括用于配置多个麦克风设备之中的一个或多个麦克风设备的控制器；

图3a示意性地显示包括多个麦克风设备的分布式麦克风系统的俯视图；

图3b示意性地显示图3a的分布式麦克风系统的第一类型的历史音频数据的热图；

图3c示意性地显示图3a的分布式麦克风系统的第二类型的历史音频数据的热图；和

图4示意性地显示配置的方法，即用于配置包括经由网络连接的多个麦克风设备的分布式麦克风系统的方法。

所有的图是示意性的而不一定按比例，并且一般仅仅显示为了阐明本发明而必要的部分，其中可以省略或只是建议其他的部分。

具体实施方式

图1示意性地显示分布式麦克风系统的实施例，其中分布式麦克风系统包括多个麦克风设备110、120和用于配置麦克风设备110、120的控制器100。控制器100包括通信模块102，其被配置成：从第一麦克风设备110接收第一历史音频数据112，并从第二麦克风设备120接收第二历史音频数据122。控制器进一步包括处理器104，其被配置成：分析第一历史音频数据112；和分析第二历史音频数据122。处理器104进一步被配置成：将第一历史音频数据112与第二历史音频数据122进行比较，以识别第一历史音频数据112和第二历史音频数据122之间的差异。处理器104进一步被配置成：基于这些差异，将优先级级别分配至第一麦克风设备110和/或将（不同的）优先级级别分配至第二麦克风设备120。优先级级别指示用于分析分别利用第一麦克风设备和/或第二麦克风设备记录的未来音频数据的优先级规则。附加地或替代地，优先级级别指示用于经由网络分别从第一麦克风设备和/或第二麦克风设备传送未来音频数据的通信规则。

控制器100可以被包括在分布式麦克风系统的中央控制器中（参见图1），其被配置成：从分布式麦克风系统的多个麦克风设备110、120接收音频数据。替代地，控制器100可以被包括在分布式麦克风系统的麦克风设备110中（参见图2，这在下面进行讨论）。

分布式麦克风系统可以包括遍及空间（例如，家庭、办公室、室外环境等等）分布的多个麦克风设备。每个麦克风设备至少包括麦克风和用于经由网络传送音频数据的通信模块。音频数据可以直接地或间接地被传送至中央控制器（参见图1）和/或被传送至网络中的另一个麦克风设备（参见图2）。分布式麦克风系统的麦克风设备的数量（至少二、三、十等等）可以取决于系统要求。例如，（开放的）办公空间或室外空间可以包括麦克风设备的阵列，其可以例如被集成在照明器或灯柱中并且可以是照明系统的一部分。来自这些麦克风的音频数据可以例如用于控制照明系统的照明设备。

控制器100的通信模块102被配置成从第一麦克风设备110和第二麦克风设备120接收历史音频数据。历史音频数据包括已在一时间段（例如，一天、一周、一月等等）内记录和存储的音频数据。通信模块102可以经由网络（例如，经由ZigBee、Bluetooth（蓝牙）、Thread（线程）、Ethernet（以太网）、PLC、Wi-Fi等等）直接从麦克风设备110、120接收音频数据并在该时间段内将音频数据存储在存储器106中，以生成麦克风设备110、120的历史音频数据。存储器106可以被包括在控制器100中或者被定位于远离控制器100并且可以是经由网络而可访问的。附加地或替代地，这些麦克风设备可以包括存储器，用于在该时间段内存储其各自的音频数据，以生成历史音频数据。这些麦克风设备的通信模块可以直接地或间接地（例如，经由服务器130）共享历史音频数据（例如，根据控制器100的请求）。附加地或替代地，麦克风设备可以被配置成在该时间段内向服务器130传送/流式传输（stream）音频数据，以及历史音频数据可以被存储在服务器130上并且稍后（例如，根据请求）被传送至控制器100。应当理解：获得麦克风设备的历史音频数据的上述示例仅仅是示例，并且本领域技术人员能够设计用于获得历史音频数据的替代方案而不背离所附权利要求书的范畴。

处理器104被配置成分析麦克风设备110、120的历史音频数据112、122。用于从音频信号中提取信息和含义的音频分析技术诸如语音识别、自然语言处理、噪声检测、模式识别等在本领域中是已知的并因此将不详细进行讨论。处理器104进一步被配置成识别各自的麦克风设备110、120的历史音频数据集112、122之间的差异。这些差异可以例如涉及在该时间段内接收的不同类型音频的音频片段的量。

处理器104被配置用于基于第一麦克风设备和第二麦克风设备的各自历史音频数据之间的差异将优先级级别分配至第一麦克风设备和第二麦克风设备之中的至少一个。优先级级别可以指示用于麦克风设备的优先级规则。优先级规则可以例如指示分析来自不同的麦克风设备的未来音频数据的顺序/次序。例如，第一麦克风设备110可以被分配指示高优先级的优先级规则，而第二麦克风设备120可以基于其历史音频数据的差异而被分配指示低优先级的优先级规则。因此，第一麦克风设备110的未来音频数据可以在第二麦克风设备120的未来音频数据之前（例如，利用分布式麦克风系统的中央控制（器））进行分析。

优先级级别可以指示用于经由网络从麦克风设备传送未来音频数据的通信规则。通信规则可以指示用于麦克风设备的数据共享计划，该数据共享计划包括与被允许由麦克风设备经由网络传送的音频数据/消息的数量、频率、等待时间、质量和/或尺寸有关的指令。在实施例中，其中控制器100被包括在分布式麦克风系统的中央控制器中，控制器100可以将通信规则传送至麦克风设备。在实施例中，其中控制器100被包括在第一麦克风设备110中（参见图2），处理器104可以为它自己的麦克风设备确定通信规则并且接着相应地经由网络传送未来音频数据。附加地或替代地，第一麦克风设备110的处理器104可以基于历史音频数据之间的差异来确定用于第二麦克风设备120的通信规则并将通信规则传送至第二麦克风设备120，以致第二麦克风设备将相应地传送未来音频数据。

处理器104可以例如确定：第一历史音频数据112包括与第二历史音频数据122相比而言更多的口头控制命令（例如，照明控制命令）。处理器104可以进一步确定：第二历史音频数据122包括比第一历史音频数据112更多的背景噪声。这些差异的原因可能是：第一麦克风设备110被定位于靠近可控设备的空间中，而第二音频设备120被定位于该空间的角落里。结果，处理器104可以将比第二麦克风设备120更高的优先级值分配至第一麦克风设备110。用于第二麦克风设备120的优先级级别可以例如指示限制可以经由网络共享的来自第二麦克风设备120的未来音频数据的量的通信规则。例如，可以限定将经由网络从第二麦克风设备120传送的未来音频数据的数量、频率、质量和/或尺寸。例如，可以限制未来音频数据分组/消息的数量，可以限制传送音频数据（例如，分组/消息）的频率，可以增加用于传送音频数据的等待时间，可以降低音频的质量/尺寸（例如，每秒比特）等等。

在另一示例中，处理器104可以确定：第一历史音频数据112包括与第二历史音频数据122相比而言更多的对话（其可以例如用于推断用户活动或用户简档）。处理器104可以进一步确定：第二历史音频数据122包括比第一历史音频数据112更多的用于触发（“唤醒”）话音操作的系统、助理或服务（例如，声控数字助理）的唤醒词以及更多的设备控制命令，其包括用户问题/查询（例如，“地球有多重”、“设置10分钟的计时器”、“将西兰花添加到我的购物清单上”等等）。这些差异的原因可能是：第一麦克风设备110被定位于空间中的公共区域中，而第二音频设备120被定位于靠近将要控制的需要唤醒词的智能扬声器。结果，处理器104可以将与第二麦克风设备120相比而言不同的优先级级别分配至第一麦克风设备110。用于第一麦克风设备110的优先级级别可以例如指示限制未来音频数据的尺寸的通信规则，因为在那个区域中可能不需要用户剖析（profiling）和/或用户活动的检测，并且用于第二麦克风设备120的优先级级别可以指示允许第二麦克风设备120共享高质量未来音频数据来改善唤醒词和后续用户问题/查询的检测的通信规则。

图2图示分布式麦克风系统，其包括多个麦克风设备110、120和在第一麦克风设备110中包括的控制器100。控制器100包括通信模块102，其被配置成：从第一麦克风设备110的麦克风208接收第一历史音频数据112；并且从第二麦克风设备120接收第二历史音频数据122。处理器104可以将第一历史音频数据存储在内部/外部存储器中。控制器100进一步包括处理器104，其被配置成：分析第一历史音频数据112；并且分析第二历史音频数据122。处理器104进一步被配置成：将第一历史音频数据112与第二历史音频数据122进行比较，以识别第一历史音频数据112和第二历史音频数据122之间的差异。处理器104进一步被配置成：基于这些差异，将优先级级别分配至第一麦克风设备110和/或将（不同的）优先级级别分配至第二麦克风设备120。处理器104可以为其自己的麦克风设备110确定优先级级别并将该优先级级别传送至另一个麦克风设备或至分布式麦克风系统的中央控制器。附加地或替代地，第一麦克风设备110的处理器104可以确定用于第二麦克风设备120的优先级级别并且经由网络将该优先级级别传送至第二麦克风设备120和/或至中央控制器。

处理器104可以进一步被配置成：分析历史音频数据112、122，以识别音频数据中不同类型的音频；并将这些不同类型的音频分类为每个各自的麦克风设备的音频类别的集合。处理器104可以基于某些音频类别在各自的历史音频数据中的存在并且可选地基于某些音频类别在各自的历史音频数据中出现的频率如何来进一步确定各自的麦克风设备的优先级级别。音频类别的示例包括：背景噪声/环境噪声（除了利用麦克风设备监控的声音之外的任何声音）；由人们/用户生成的非语音音频（例如，脚步、人们咳嗽、门打开/关闭、打字声音等等）；由（建筑物/室外）基础设施生成的非语音音频（例如，由HVAC系统、由电源（例如，来自与麦克风设备共同定位（co-locate）的照明设备）等等创建的（亚音速）音频）；背景语音（未指向声控系统或服务的语音，例如，指向存在于同一空间中的人们或虚拟存在的人们的语音）；用于控制声控设备的话音命令；用于请求声控服务的话音命令（例如，可以利用声控服务来回答的用户问题/查询）；用于触发话音操作的系统、助理或服务的唤醒词等等。处理器104可以例如分析第一麦克风设备110的第一音频数据112和第二麦克风设备120的第二音频数据122并且确定：第一音频数据112仅包括背景噪声和/或背景语音，而第二音频数据122包括用于控制声控设备的话音命令和/或用于请求声控服务的话音命令。基于这个确定，处理器104可以为第二麦克风设备120设置较高的优先级级别并为第一麦克风设备110设置较低的优先级级别。

麦克风设备可以记录源自它被定位于其中的空间的音频，而且可以记录源自例如相邻空间的音频。处理器104可以进一步被配置成：基于单个麦克风设备的历史音频数据的特征，区分源自第一空间中的第一源的音频和源自与第一空间相邻的第二空间中的第二源的音频。处理器104可以被配置成：在确定用于那个麦克风设备的优先级级别时，忽略来自第二空间的音频。替代地，处理器104可以基于来自第一源的音频和来自第二源的音频之间的比率来确定用于麦克风设备的优先级级别。例如，如果仅仅/大部分来自第二空间的音频存在于历史音频数据中，则可以将较低的优先级级别分配至麦克风设备，并且反之亦然。

处理器104可以进一步被配置成：如果由两个麦克风设备在同一时刻记录音频片段，以及如果在音频片段之间具有足够的相似程度，则确定：利用第一麦克风设备110记录的音频片段源自与利用第二麦克风设备120记录的音频片段相同的源。处理器104随后可以存储两个音频片段之间的相关性，从而指示：这些音频片段源自相同的源。处理器104可以例如确定：在第一麦克风设备上记录的话音命令是由第二麦克风设备在同一（历史）时刻记录的相同的话音命令。

图3a图示在空间中包括多个麦克风设备M1-M10的分布式麦克风系统的示例。图3a进一步图示咖啡机（紧邻M1）、两组桌子（在M4和M9上）和门（紧邻M10）。图3b图示（图）3a的系统和指示在一时间段内已被多个麦克风设备M1-M10检测到的第一类型的音频的热图，其中较暗区域指示在该时间段内第一类型的音频的检测的较高数量。图3c图示（图）3a的系统和指示在一时间段内已被多个麦克风设备M1-M10检测到的第二类型的音频的热图，其中较暗区域指示在该时间段内第二类型的音频的检测的数量级别。第一类型的音频例如可以是由用户引起的背景语音。处理器104可以确定在每个麦克风上的背景语音的量。这在图3b中已被可视化为热图。第二类型的音频例如可以是用于声控设备用户的控制命令。处理器104可以确定在每个麦克风上的控制命令的量。这在图3c中已被可视化为热图。在这些示例中，处理器104可以将最低的优先级级别分配至麦克风设备M7和M10，因为这些麦克风很少记录第一类型或第二类型的任何音频。处理器104可以进一步将高的优先级级别分配至麦克风设备M1和M2，因为这些麦克风设备已记录大量的控制命令（可能用于控制咖啡机）。并且，重要的是区分背景语音（参见图3b）和控制命令（参见图3c），这可能是将更高的优先级级别分配至麦克风设备M1和M2的另一原因。处理器104可以进一步将中等优先级级别分配至剩余的麦克风设备，因为它们没有接收到控制命令而只不过接收到背景语音（在入口处、咖啡机和桌旁）。替代地，例如，在其中背景语音是不相关的实施例中，处理器104也可以将低的优先级级别分配至剩余的麦克风设备。处理器104可以被配置成生成热图，其可以用于将检测到的类型的音频传送至用户。

处理器104可以被配置成基于用户的存在来确定用于麦克风设备的优先级级别。处理器104可以分析第一麦克风设备和第二麦克风设备的历史音频数据，以确定在各自的麦克风设备上用户存在的级别（例如，用户多久存在一次，用户在麦克风设备的检测范围内停留多长时间等等）。处理器104随后可以基于用户存在的各自级别来确定各自的优先级级别。例如，如果在其间已记录历史音频数据的时间段期间与第二麦克风设备120相比而言更多的用户已存在于第一麦克风设备110上，则处理器104可以将更高的优先级级别分配至第一麦克风设备110。

处理器104可以进一步被配置成：基于一个或多个用户相对于多个麦克风设备110、120的位置，确定用于麦克风设备的优先级级别。处理器104可以进一步被配置成：通过比较已在同一时刻检测到的用户声音的强度，确定用户相对于多个麦克风设备110、120的位置。确定在两个麦克风设备上捕获到的用户生成的声音之间的强度差异可能足以确定/估计用户最接近哪个麦克风设备。处理器104随后可以在此基础上将优先级级别分配至麦克风设备。例如，如果在其间已记录历史音频数据的时间段期间与第二麦克风设备120相比而言更多的用户被定位于更靠近第一麦克风设备110，则处理器104可以将更高的优先级级别分配至第一麦克风设备110。另外，处理器104可以被配置用于接收指示多个麦克风相对于其被定位于其中的空间的（预定义）位置的信息。例如，可以从室内定位系统、从建筑物信息模型、从麦克风设备等等获得这个信息。当三个或更多的麦克风设备检测到相同的用户生成的声音时，能够使用本领域中已知的三边测量技术来确定创建了那个声音的用户的更精确位置。

处理器104可以进一步被配置成：基于至少三个麦克风设备的历史音频数据，确定一个或多个用户随着时间的推移相对于这些麦克风设备的一个或多个轨迹。可以分析多个麦克风的音频数据以识别相类似的声音（例如，脚步、用户的话音等等），从而确定：它们源自同一用户。通过对这些音频片段应用三边测量，能够在某一时刻确定用户的位置。如果这个位置随时间而改变，则这指示：用户正在移动。这使之能够检测用户的轨迹（和速度）。可以在其间历史音频数据已被记录的时间段内检测到多个用户的轨迹。处理器104可以进一步被配置成：基于一个或多个用户的一个或多个轨迹，将优先级级别分配至麦克风设备。例如，被定位于已被一个或多个用户不太频繁遍历的位置/路径上的麦克风设备可以被分配比被定位于已被一个或多个用户遍历的位置/路径上的麦克风设备更低的优先级级别。

处理器104可以进一步被配置成：基于麦克风设备的位置，确定用于麦克风设备的优先级级别。处理器104可以被配置成：例如，从（室内）定位系统或通过访问包括关于麦克风设备110、120的位置的信息的数据库，获得第一麦克风设备110和第二麦克风设备120的位置。例如，这些位置可以被定义为空间中的坐标。附加地或替代地，这些位置可以在语义上进行定义，例如，从而指示其中已安装各自麦克风设备的房间、区域或空间的类型（例如，“客厅”、“门口”、“开放办公空间1”、“十字路口”、“人行道”等等）。例如，如果麦克风设备被定位于房间的角落里，则它可以被分配比被定位于房间的中心的麦克风设备更低的优先级。

处理器104可以进一步被配置成：基于麦克风设备的预期/预定义功能，确定用于麦克风设备的优先级级别。处理器104可以被配置成获得指示多个麦克风设备110、120的预期/预定义功能的信息。这个信息可以从麦克风设备、从中央家庭/办公室/中央控制系统、从在移动设备上运行的软件应用等等获得。第一麦克风设备110的功能例如可以是检测用于设备（例如，灯、自动售货机等等）的控制命令。第二麦克风设备120的功能可以是基于用户生成的声音的存在检测。处理器104可以获得这些功能并将第一优先级级别分配至第一麦克风设备110，从而指令（instruct）第一麦克风设备110共享高质量音频以便正确识别控制命令，并且将第二优先级级别分配至第二麦克风设备120，从而指令第二麦克风设备120共享低质量音频，因为高质量音频对于确定用户存在而言不是必要的。

处理器104可以进一步被配置成：基于在各自的麦克风设备110、120上检测到的用户活动，确定用于麦克风设备的优先级级别。例如，基于用户之间的对话或者基于其他的听觉类型诸如音乐、由用户生成的非语音音频等，处理器104可以分析历史音频数据并从中检索用户活动。处理器104可以分析历史音频数据并使用Natural Language Processing（自然语言处理）技术来识别用户活动（例如，闲聊、商务会议对话、晚餐对话等等），或者处理器104可以检测非语音声音（例如，指示一个人在其计算机上工作的打字声音、指示一个人在观看电影的电影声音、指示一个人在听音乐的音乐等等）。基于在各自的麦克风设备上检测到的活动，处理器104可以确定优先级级别。例如，如果在其间历史音频数据已被记录的时间段期间与第二麦克风设备120相比而言在第一麦克风设备110上已识别需要更多的音频检测、通信和/或分析的更多活动，则处理器104可以将更高的优先级级别分配至第一麦克风设备110。

处理器104可以进一步被配置成动态地更新麦克风设备110、120的优先级级别。处理器104可以连续地或周期性地分析历史音频数据和当前音频数据，以更新优先级级别。处理器104可以进一步被配置成从与一个或多个麦克风设备相关联的存在传感器接收存在信号。存在信号指示用户的存在。存在传感器可以是分布式麦克风系统的一部分。存在传感器例如可以是照相机、PIR传感器、雷达/RF传感器等等，用于在一个人存在时生成传感器信号。存在传感器可以与麦克风设备共同定位（例如，被包括在同一设备中，例如，被包括在照明灯具中）。替代地，存在传感器可以被定位于与其相关联的麦克风设备相同的区域中。处理器104可以被配置成：当存在信号已被接收到时，更新或（临时）否决以前的优先级级别。例如，如果用户进入房间，则存在传感器可以检测到用户的存在并基于用户的存在来增加被定位于房间中的麦克风设备的优先级级别。可选地，在一时间段之后，例如，当不再检测到存在时或者在超时周期之后，处理器104可以切换回到以前的优先级级别。

处理器104可以进一步被配置成：基于网络容量（例如，网络的带宽、网络负载、网络的下载速度等等）和/或相对于预定网络容量的网络利用率（utilization），（临时）调整麦克风设备的优先级级别。处理器104可以被配置成：（例如，从中央控制器、中央服务器、网络路由器等等）接收网络的网络容量的指示；并基于此，调整/否决优先级级别（例如，通信规则）。在示例中，当前网络利用率可能是低的，并因此处理器104可以调整麦克风设备的优先级级别，从而允许麦克风设备增加将经由网络传送的音频数据的数量、频率、质量和/或尺寸。

麦克风设备的处理单元可以被配置成（临时）调整/否决其优先级级别。处理单元可以例如被配置成：本地处理音频数据；从当前音频数据中检索/检测音频事件，例如，特定音频类别或口头用户输入；并基于音频事件来确定否决优先级级别。这可以例如使得麦克风设备能够向中央控制器传送音频数据（例如，指示音频事件的信息），即使中央控制器可能已将低的优先级级别分配至那个麦克风设备。

图4显示用于配置分布式麦克风系统的方法400的步骤，其中分布式麦克风系统包括经由网络连接的多个麦克风设备110、120。该方法包括：分析402从多个麦克风设备之中的第一麦克风设备110接收的第一历史音频数据112；以及分析404从多个麦克风设备之中的第二麦克风设备120接收的第二历史音频数据122。该方法进一步包括：比较406第一历史音频数据112与第二历史音频数据122，以识别408第一历史音频数据112与第二历史音频数据122之间的差异。该方法进一步包括：基于第一历史音频数据与第二历史音频数据之间的差异，分配410优先级级别至第一麦克风设备和/或第二麦克风设备，其中优先级级别指示用于分析分别利用第一麦克风设备和/或第二麦克风设备记录的未来音频数据的优先级规则，和/或其中优先级级别指示用于经由网络分别从第一麦克风设备和/或第二麦克风设备传送未来音频数据的通信规则。

当计算机程序产品被运行在计算设备的处理单元诸如控制器100的处理器104上时，方法400可以利用计算机程序产品的计算机程序代码来执行。

应注意：上述的实施例举例说明而非限制本发明，并且本领域技术人员将能够设计许多替代的实施例而不背离所附权利要求书的范畴。

在权利要求书中，被放置在括号之间的任何参考标志不应被解释为限制该权利要求。动词“包括”及其变形的使用并不排除除了在权利要求中所陈述的那些元件或步骤之外的元件或步骤的存在。在元件前面的冠词“一”或“一个”并不排除多个这样的元件的存在。本发明可以借助于包括若干不同元件的硬件并且借助于适当编程的计算机或处理单元来实现。在列举若干装置的设备权利要求中，这些装置之中的若干装置可以利用一个且同一项硬件来体现。在相互不同的从属权利要求中叙述某些措施的纯粹事实并不指示不能有益使用这些措施的组合。

本发明的各方面可以在计算机程序产品中进行实现，其中计算机程序产品可以是在计算机可读存储设备上存储的可以由计算机执行的计算机程序指令的集合。本发明的指令可以位于任何的可解释或可执行的代码机制中，其中代码机制包括但不限于脚本、可解释程序、动态链接库（DLL）或Java类。这些指令可以作为完全可执行程序、部分可执行程序、作为针对现有程序的修改（例如，更新）或针对现有程序的扩展（例如，插件）来提供。此外，本发明的处理的各部分可以被分布在多个计算机或处理器或甚至“云”上。

适合于存储计算机程序指令的存储媒体包括所有形式的非易失性存储器，其包括但不限于EPROM、EEPROM和闪存设备、磁盘诸如内部和外部硬盘驱动器、可移动盘和CD-ROM盘。计算机程序产品可以被分布在这样的存储介质上或者可以被供应用于通过HTTP、FTP、电子邮件或者通过连接到网络诸如Internet（因特网）的服务器的下载。

Claims

1.一种用于配置包括经由网络连接的多个麦克风设备的分布式麦克风系统的方法（400），所述方法（400）包括：

分析（402）从所述多个麦克风设备之中的第一麦克风设备（110）接收的第一历史音频数据（112）；

分析（404）从所述多个麦克风设备之中的第二麦克风设备（120）接收的第二历史音频数据（122）；

比较（406）第一历史音频数据（112）与第二历史音频数据（122），以识别（408）第一历史音频数据（112）与第二历史音频数据（122）之间的差异；以及

基于第一历史音频数据（112）与第二历史音频数据（122）之间的差异，分配（410）优先级级别至第一麦克风设备和/或第二麦克风设备，其中所述优先级级别指示用于分析分别利用第一麦克风设备和/或第二麦克风设备记录的未来音频数据的优先级规则，和/或其中所述优先级级别指示用于经由所述网络分别从第一麦克风设备和/或第二麦克风设备传送未来音频数据的通信规则。

2.根据权利要求1所述的方法（400），其中所述通信规则定义将经由所述网络从各自的麦克风设备传送的音频数据的允许的数量、频率、等待时间、质量和/或尺寸。

3.根据权利要求1所述的方法（400），其中分析第一历史音频数据（112）的步骤包括分析第一历史音频数据（112）以识别第一历史音频数据（112）中不同类型的音频，以及其中分析第二历史音频数据（122）的步骤包括分析第二历史音频数据（122）以识别第二历史音频数据（122）中不同类型的音频，并且其中所述方法（400）进一步包括：

将第一历史音频数据（112）之中不同类型的音频分类为第一集合的一个或多个音频类别；和

将第二历史音频数据之中不同类型的音频分类为第二集合的一个或多个音频类别，

其中优先级级别至第一麦克风设备和/或第二麦克风设备的分配进一步分别基于第一集合的音频类别和第二集合的音频类别。

4.根据权利要求2所述的方法（400），其中分析第一历史音频数据（112）的步骤包括分析第一历史音频数据（112）以识别第一历史音频数据（112）中不同类型的音频，以及其中分析第二历史音频数据（122）的步骤包括分析第二历史音频数据（122）以识别第二历史音频数据（122）中不同类型的音频，并且其中所述方法（400）进一步包括：

5.根据权利要求3所述的方法（400），其中所述音频类别包括：

背景噪声；

由用户生成的非语音音频；

由基础设施生成的非语音音频；

背景语音；

用于控制声控设备的话音命令；

用于请求声控服务的话音命令；和/或

用于触发话音操作的系统、助理或服务的唤醒词。

6.根据权利要求4所述的方法（400），其中所述音频类别包括：

背景噪声；

由用户生成的非语音音频；

由基础设施生成的非语音音频；

背景语音；

用于控制声控设备的话音命令；

用于请求声控服务的话音命令；和/或

用于触发话音操作的系统、助理或服务的唤醒词。

7.根据任一前述权利要求所述的方法（400），其中分析第一历史音频数据（112）的步骤包括分析第一历史音频数据（112）以识别第一级别的用户存在，以及其中分析第二历史音频数据（122）的步骤包括分析第二历史音频数据（122）以识别第二级别的用户存在，并且所述优先级级别至第一麦克风设备和/或第二麦克风设备的分配进一步基于第一级别和第二级别的用户存在。

8.根据权利要求7所述的方法（400），进一步包括：

基于第一历史音频数据、第二历史音频数据和第三历史音频数据，确定一个或多个用户相对于第一麦克风设备、第二麦克风设备和第三麦克风设备的一个或多个位置；和

进一步基于所述用户相对于第一麦克风设备、第二麦克风设备和第三麦克风设备的位置，分配所述优先级级别至第一麦克风设备、第二麦克风设备和/或第三麦克风设备。

9.根据权利要求8所述的方法，进一步包括：

基于一个或多个用户随时间的位置，确定一个或多个用户随着时间的推移相对于第一麦克风设备、第二麦克风设备和第三麦克风设备的一个或多个轨迹；

进一步基于所述一个或多个用户的一个或多个轨迹，将所述优先级级别分配至第一麦克风设备、第二麦克风设备和/或第三麦克风设备。

10.根据权利要求1到6中任一项所述的方法（400），进一步包括：

获得第一麦克风设备和第二麦克风设备的位置；以及

进一步基于第一麦克风设备和第二麦克风设备的各自位置，将所述优先级级别分配至第一麦克风设备和/或第二麦克风设备。

11.根据权利要求1到6中任一项所述的方法（400），其中分析第一历史音频数据（112）的步骤包括分析第一历史音频数据（112）以便基于第一历史音频数据（112）识别一个或多个第一用户活动，以及其中分析第二历史音频数据（122）的步骤包括分析第二历史音频数据（122）以便基于第二历史音频数据（122）识别一个或多个第二用户活动，并且其中所述优先级级别至第一麦克风设备和/或第二麦克风设备的分配进一步基于所述一个或多个第一用户活动和所述一个或多个第二用户活动。

12.根据权利要求1到6中任一项所述的方法（400），进一步包括：

从与第一麦克风设备和/或第二麦克风设备相关联的存在传感器接收存在信号；和

响应于所述存在信号，分别调整第一麦克风设备和/或第二麦克风设备的优先级级别。

13.一种用于计算设备的计算机存储介质，所述计算机存储介质存储计算机程序代码，以便当所述计算机程序代码在所述计算设备的处理单元上运行时执行权利要求1-12之中任一权利要求所述的方法（400）。

14.一种用于配置分布式麦克风系统的控制器（100），其中所述分布式麦克风系统包括经由网络连接的多个麦克风设备，所述控制器（100）包括：

通信模块（102），其被配置成：从所述多个麦克风设备之中的第一麦克风设备（110）接收第一历史音频数据（112）；以及从所述多个麦克风设备之中的第二麦克风设备（120）接收第二历史音频数据（122）；和

处理器（104），其被配置成：分析第一历史音频数据（112）；分析第二历史音频数据（122）；比较第一历史音频数据（112）与第二历史音频数据（122），以识别第一历史音频数据（112）与第二历史音频数据（122）之间的差异；以及基于第一历史音频数据（112）与第二历史音频数据（122）之间的差异，将优先级级别分配至第一麦克风设备和/或第二麦克风设备，其中所述优先级级别指示用于分析分别利用第一麦克风设备和/或第二麦克风设备记录的未来音频数据的优先级规则，和/或其中所述优先级级别指示用于经由所述网络分别从第一麦克风设备和/或第二麦克风设备传送未来音频数据的通信规则。

15.根据权利要求14所述的控制器（100），其中所述控制器（100）被包括在第一麦克风设备（110）中，以及其中所述通信模块被配置成从第一麦克风设备（110）中包括的麦克风接收第一历史音频数据。

16.一种分布式麦克风系统，其包括：

中央控制器，其包括根据权利要求14所述的控制器（100）；

第一麦克风设备（110），其被配置成将第一历史音频数据传送至所述中央控制器；和

第二麦克风设备（120），其被配置成将第二历史音频数据传送至所述中央控制器。

17.根据权利要求16所述的分布式麦克风系统，其中所述分布式麦克风系统是照明系统，以及其中第一麦克风设备（110）和第二麦克风设备（120）分别被包括在所述照明系统的第一照明设备和所述照明系统的第二照明设备中。