CN111629301A

CN111629301A - 用于控制多个扬声器播放音频的方法、装置和电子设备

Info

Publication number: CN111629301A
Application number: CN201910146599.2A
Authority: CN
Inventors: 朱长宝
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2020-09-04
Anticipated expiration: 2039-02-27
Also published as: CN111629301B; WO2020173156A1; US11856379B2; US20220217468A1

Abstract

公开了一种控制多个扬声器播放音频的方法、装置和电子设备，该方法可以包括：确定每个说话人的位置信息和发出的语音信号；根据每个说话人的位置信息确定每个说话人所在的区域；确定每个语音信号对应的语音指令；以及控制多个扬声器分别针对每个语音指令的说话人所在的区域播放由对应的语音指令所指示的音频。通过根据本公开的实施例方法、装置和/或电子设备，能够针对预定空间内的不同区域播放不同的音频。

Description

用于控制多个扬声器播放音频的方法、装置和电子设备

技术领域

本公开总体上涉及声音信号处理的技术领域，并且具体地涉及一种控制多个扬声器播放音频的方法、装置和电子设备。

背景技术

有的车载音响系统能够响应由主驾驶座位处的驾驶员和副驾驶座位处的乘客发出的语音指令进行播放。

例如，车载音响系统可以响应于由驾驶员发出的语音指令“导航到火车站”以及由副驾驶座位处的乘客发出的语音指令“播放音乐”，控制车载扬声器同时播放导航声音和音乐。

发明内容

根据本公开的一个方面，提供了一种控制多个扬声器播放音频的方法。该方法可以包括：确定每个说话人的位置信息和发出的语音信号；根据每个说话人的位置信息确定每个说话人所在的区域；确定每个语音信号对应的语音指令；以及控制多个扬声器分别针对每个语音指令的说话人所在的区域播放由对应的语音指令所指示的音频。

根据本公开的另一个方面，还提供了一种控制多个扬声器播放音频的装置。该装置可以包括：声源定位模块，被配置为确定每个说话人的位置信息和发出的语音信号；区域确定模块，被配置为根据每个说话人的位置信息确定每个说话人所在的区域；语音识别模块，被配置为确定每个语音信号对应的语音指令；以及播放控制模块，被配置为控制多个扬声器分别针对每个语音指令的说话人所在的区域播放由对应的语音指令所指示的音频。

根据本公开的另一个方面，还提供了电子设备。该电子设备可以包括：处理器，被配置为执行上述方法；以及存储器，被配置为存储所述处理器的可执行指令。

根据本公开的另一个方面，还提供了一种计算机可读存储介质，在其上存储有程序指令，该程序指令可以在被计算机执行时执行上述方法。

通过根据本公开的实施例的方法、装置和/或电子设备，能够针对诸如车载空间这样的预定空间内的不同区域播放不同的音频，并使得对不同区域播放的不同音频之间互不干扰。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出根据本公开的实施例的示例性系统。

图2示出根据本公开的实施例的示例性系统。

图3示出根据本公开的实施例的示例性方法。

图4示出根据本公开的实施例的示例性方法的执行过程的示例。

图5示出根据本公开的实施例的示例性装置。

图6示出根据本公开的实施例的示例性装置。

图7示出根据本公开的实施例的示例性装置。

图8示出根据本公开的实施例的示例性装置。

图9示出根据本公开的实施例的示例性装置。

图10示出根据本公开的实施例的示例性装置。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

概述

如前文所述，通常的车载音响系统可以响应由驾驶员和/或副驾驶座位处的乘客发出的语音指令发出的一条或多条语音指令，控制多个扬声器播放多个音频(例如，导航声音、音乐等)。这样同时播放的多个音频之间可能相互干扰。例如，驾驶员可能由于按照副驾驶座位处的乘客的语音指令播放的音乐，而无法清楚听到导航声音。

根据本公开的实施例的方法、装置、电子设备等旨在解决或缓解上述技术问题。

示例性系统

为了方便说明，首先在图1中示出能够应用根据本公开的实施例的方法或装置的示例性系统。

在图1的示例中，该系统可以是一个车辆内部的车载环境中的系统，其中，S1至S4分别表示设置于车辆的四个角落的四个扬声器，R1至R4分别表示与车辆内部的四个座位相对应的四个播放区域(下文也简称为“分区”)，并且DEC表示根据本公开的实施例的装置或者能够实施根据本公开的实施例的方法的装置。

例如，扬声器S1至S4可以通过有线或无线的方式与装置DEC相连，并且在本公开的各个实施例中，扬声器S1至S4可以在装置DEC的控制下以相应的参数播放相应的音频。例如，扬声器S1可以在装置DEC的控制下针对区域R1播放导航语音，扬声器S2可以在装置DEC的控制下针对区域R2播放新闻，而扬声器S3和扬声器S4可以在装置DEC的控制下针对区域R2播放歌曲。

应当理解，图1中的扬声器和装置DEC的配置方式仅为示例。根据本公开的实施例方法和装置能够用于控制采用任何配置方式的任何数量的多个(至少两个)扬声器。另外，在本文中提到的每个扬声器本身也可以意味着包括一个或多个扬声器的扬声器阵列，或者能够在装置DEC的控制下播放音频的任何其他类型的音频播放装置或系统。例如，扬声器S1也可以是一个包括多个扬声器的扬声器阵列。

虽然在图1中示出S1至S4这四个相邻且互不重叠的矩形平面区域，但是实际的区域数量可以不局限于四个，并且实际的区域可以是规则或不规则的、彼此具有重叠或彼此完全不接触的、平面或立体的任何形式的区域。例如，区域的数量和形态可以取决于扬声器的数量和配置。

另外，能够应用根据本公开的实施例的方法或装置的系统或环境也不局限于车载环境或车载系统。例如，根据本公开的实施例的方法或装置也可以应用于例如家庭室内环境、智能家居系统等其他系统或环境。

例如，如图2所示，可以在一个室内环境中安置五个扬声器S1’至S5’，并通过有线或无线的方式将其与根据本公开的实施例的装置DEC相连，使得五个扬声器S1’至S5’能够在装置DEC的控制下分别针对区域R1’至R5’播放相应的音频。

在图2的示例，为了使区域R2’能够覆盖听者在区域R2’中的主要收听区域，从而确保在区域R2’中的听者在区域R2’中的绝大多数情况下能够听到相应的音频而不受到干扰，可以允许区域R2’与R4’部分地重叠。根据不同的实施例，可以调节各个扬声器R2’和R4’的配置，或者例如通过波束成形等技术，调整各个对应的区域R2’和R4’的面积和形状等，从而避免或尽可能减少这样的重叠。在一个实施例中，如果这样的重叠区域不是主要收听区域，例如不是听者的主要活动区域或主要停留区域，例如墙体、过道等，则可以忽略这样的重叠区域。另外，在公差允许的范围内，各个区域之间实际上可以存在类似的稍微重叠的部分。

另外，如图2所示，在预定环境中，可能存在未被R1’至R5’覆盖的“盲区”。如果根据统计、观测或设置等，能够确定听者不太可能出现在该区域或者在该区域不期望听到任何音频，则可以不考虑这样的盲区；否则，例如，可以针对该区域设置另外的扬声器，或者调整已有的扬声器R1’至R5’的位置和参数，从而覆盖该区域。

也就是说，可以根据情况，适当地增加或减少扬声器的数量或者调整各个扬声器的配置或者采用适当的手段，从而实现期望的播放分区。本公开不局限于扬声器和相应的播放分区的配置方式。

示例性方法

图3示出根据本公开的实施例的控制多个扬声器播放音频的示例方法，该方法可以应用于电子设备，并且可以包括步骤S110、S120、S130和S140。

在步骤S110中，可以确定每个说话人的位置和语音信号。

根据不同的实施例，在步骤S110中，可以采用任何适当的方式确定预定环境中的每个说话人的位置和语音信号。例如，可以通过麦克风(或麦克风阵列)接收预定环境(例如，车载环境)中的声音信号，然后可以通过例如盲源分离等技术确定声源方位并分离出与每个声源相对应的语音信号。

根据本发明公开的实施例中，还可以采用将音频分析与经由其他传感器采集的信息分析结合的方式，确定预定环境中的每个说话人的位置和语音信号，由此能够去除或显著地降低环境中的噪声的影响。

然后，可以在步骤S120中根据每个说话人的位置信息确定每个说话人所在的区域。例如，可以确定以说话人的位置为中心且具有预定范围的圆形、矩形等形状的区域，作为该说话人所在的区域。例如，也可以根据事先确定的说话人位置与预定区域之间的对应关系，确定每个说话人的所在区域。例如，在说话人的位置坐标处于某个预定区域范围内的情况下，可以确定该说话人的所在区域为该预定区域。

然后，可以在步骤S130中确定每个语音信号对应的语音指令。

根据不同的实施例，在步骤S130中，可以采用任何适当的技术手段进行语音识别。例如，可以采用诸如隐马尔可夫模型、动态时间规整、矢量量化等模板匹配方法，也可以采用基于语音学和声学的方法，还可以采用基于人工神经网络的方法。本公开不局限于任何特定的语音识别技术。

然后，可以步骤S140中控制多个扬声器分别针对每个语音指令的说话人所在的区域播放由对应的语音指令所指示的音频。

例如，如图4所示，在图1的示例性的车载环境中乘坐有三个人P1至P3，其中，P1位于区域R1处的座位，P2位于区域R3处的座位，P3位于区域R4处的座位，并且根据本公开的实施例的方法可以例如在车辆启动之后自动执行，或者根据例如驾驶员和/或乘客的手动操作或语音指指令而执行。

在图4的示例中，在步骤S110中检测到三个说话人，并且在步骤S120中确定每个说话人所在的区域，其中，位于R1的P1说“导航到火车站”，位于R3的P2说“播放音乐”，并且位于R4的P3说“今天天气不错”；并且在步骤S130中检测到由P1发出指示“导航到火车站”的语音指令并且由P2发出指示“播放音乐”的语音指令。

于是，在步骤S140，可以控制至少扬声器S1以适当的参数(例如音量、功率)播放导航声音，并且可以控制至少扬声器S3以适当的参数(例如音量、功率)播放音乐。

通过根据本公开的实施例的示例方法，能够针对诸如车载空间这样的预定空间内的不同区域播放不同的音频，并使得对不同区域(至少主要收听区域)播放的不同音频之间互不干扰。

下面描述根据本公开的实施例的示例方法的更多细节。

在一个实施例中，根据本公开的实施例的方法还可以包括：确定至少一个预测位置；获取图像传感器采集的前述至少一个预测位置的图像；根据所采集的图像确定至少一个唇动者；以及从前述至少一个唇动者中确定每个说话人。

在一个实施例中，例如，可以在预定环境中每个预定位置处安置诸如人体接近传感器、人体活动检测器、压力传感器等一种或多种类型的至少一个传感器，然后可以接收来自所安置的至少一个传感器的感测信息，并根据所接收的感测信息确定环境中的至少一个人的位置及相应的区域。然后，在确定每个说话人的位置和语音信号时，可以根据每个人的位置分离由声音传感器(例如，麦克风)采集的声音信号，并输出说话人的位置和语音信号。

在另一个实施例中，例如，还可以确定至少一个预测位置(或者说，至少一个可能的播放区域)，并获取例如由一个或多个图像传感器(例如，相机)采集的关于所确定的至少一个预测位置的图像(在本文中提及的术语“图像”可以指一个或多个图像或者包括在时间上连续的多个图像的视频)，然后可以根据所采集的图像确定至少一个唇动者(即，唇部正在动作的人)。然后，在确定每个说话人的位置和语音信号时，可以根据各个唇动者的唇动方位分离由声音传感器采集的声音信号，并输出说话人的位置和语音信号。当然，也可以根据图像中唇动者的唇部位置，直接确定说话人的位置信息。

通过确定至少一个预测位置，能够更高效且更准确地指示图像传感器采集图像。另外，在根据本公开的实施例的方法中，可以将图像识别与声音识别相结合，例如可以根据唇动识别的结果有针对性地进行声音识别，由此即使在高噪声背景下的情况下也能够获得较高的语音识别率。

在另一个实施例中，例如，可以在预定环境中每个预定位置处安置诸如人体接近传感器、人体活动检测器、压力传感器等一种或多种类型的至少一个传感器，然后可以接收来自所安置的至少一个传感器的感测信息，并根据所接收的感测信息确定至少一个预测位置。然后，可以控制或指示一个或多个图像传感器采集所确定的至少一个预测位置的图像。然后可以根据所采集的图像确定至少一个唇动者。然后，在确定每个说话人的位置和语音信号时，可以根据各个唇动者的唇动方位分离由声音传感器采集的声音信号，并输出说话人的位置和语音信号。在该实施例中，通过图像传感器信息(即，图像或视频)和其他类型传感器信息的结合，可以避免例如在仅基于图像检测的情况下的由于光线不足等而出现的检测错误，还可以避免在仅基于非图像类传感器信息的检测的情况下的检测错误(例如，在仅使用压力传感器的情况下，可能将座位上放有重物的情况误判为该座位处有人；在仅使用红外传感器的情况下，可以将动物误判为人)。

例如，可以在至少一个预定座位(例如，车辆中的各个座位)处安装至少一个压力传感器。然后，可以获取由各个压力传感器采集的压力值，并且相应地，前述的至少一个预测位置可以包括所感测的压力值大于阈值的每个预定座位，即，当与某个座位处的压力值大于设定的阈值时，可以初步确定该座位处可能有人。然后，可以控制或指示一个或多个图像传感器只采集所确定的至少一个预测位置的图像，并分析所采集的图像。由此，能够有效地减少在图像检测中例如由于光线不足等而出现的检测错误，并且可以省略或减化图像检测中与人脸活体检测相关的处理，从而有利于提高检测的效率和准确度并降低处理的复杂度和成本。

本公开不局限于特定的图像采集方式和/或特定的图像分析方式。例如，可以分别控制各个摄像头采集相应的一个或多个区域的图像，并且并行地利用诸如神经网络、支持向量机等针对所采集的各个图像进行图像检测或分析；也可以控制一个或多个摄像头逐个地采集各个区域的图像，并利用诸如神经网络、支持向量机等逐个地对所采集的各个图像进行图像检测或分析；也可以控制一个或多个摄像头采集覆盖所有位置或区域的完整图像或视频，然后利用诸如神经网络、支持向量机等对所采集的完整图像进行图像检测或分析；诸如此类。

根据不同的实施例，可以直接基于所采集的图像进行唇动识别，也可以在基于所采集的图像检测到人之后，调整图像传感器的角度、焦距等，使得图像传感器更准确地对准人所在的位置，并控制图像传感器再次采集关于人或该人的面部的图像，然后可以基于再次采集的图像进行唇动识别，从而更准确地确定一个或多个唇动者的唇动方位。

在一个实施例中，可以根据各个唇动者的唇动方位分离由声音传感器(例如，麦克风)采集的声音信号，并输出说话人的位置和语音信号。

在一个实施例中，可以进一步地结合声音信号处理确定每个说话人的位置和语音信号，从而有效地避免或减少唇动识别中的误判。

例如，可以在每个唇动者的唇动方向上增强由声音传感器(例如，麦克风)采集的声音信号，并通过分离经增强的声音信号，获得与每个唇动者相对应的分离信号，然后可以将能量大于阈值的分离信号确定为说话人的语音信号。由此，可以避免将例如正在吃东西或打哈气的唇动者也判断为说话人，从而提高唇动识别的准确性。

在一个实施例中，可以在声音分离之前，对由声音传感器采集的声音信号进行降噪处理。例如，可以通过高通滤波去除低频噪声，还可以通过回声消除技术消除扬声器的回放干扰，等等。

在一个实施例中，响应于任一语音指令的说话人的语音指令，确定对应的音频以及所述多个扬声器中与所述任一语音指令的说话人所在的区域相对应的至少一个扬声器；以及控制所述至少一个扬声器以相应的播放参数播放对应的音频。

根据不同的实施例，可以对扬声器S2和S3进行不同的控制。例如，可以控制扬声器S2和S3处于静音状态；也可以控制S2与S1一起播放导航声音，并控制S4与S3一起播放音乐；也可以控制S2和S4与S3一起播放音乐；也可以控制S2处于静音状态，并控制S4与S3不同的音量(例如，比S3的音量低)播放音乐；诸如此类。

例如，如果随后检测到P2发出语音指令“停止播放”而P3发出语音指令“播放音乐”，则在步骤S130中，可以控制S3停止播放，并控制S4开始以适当的音量和/或音效等播放音乐。由此，可以实现响应于语音指令的分区播放。

在一个实施例中，可以对任一语音指令的说话人所在的区域进行声场测量，并且根据声场测量的结果确定各个扬声器的相应的播放参数。由此，能够获得良好的播放效果并且确保针对各个区域播放的音频互不干扰。

例如，对于车载环境，可以针对与车辆中的各个座位相对应的各个区域进行声场测量，并获得一组扬声器参数，该组参数能够使得每个扬声器对相应的座位或播放区域的输出声压级相对于其他座位或播放区域的声压级的差值最大。另外，可以通过一次或多次的调试，确保获得参数的优化结果。

在一个实施例中，这样的声场测量和参数调试或调整可以是离线进行的，例如在车辆出厂前或者室内智能音响系统使用之前进行。

在另外的实施例中，这样的声场测量和参数调试或调整也可以包括在线的实时操作。例如，可以提供相应的操作接口，以允许用户(例如车辆的驾驶员和/或乘客)调整扬声器的参数，也可以通过扬声器和麦克风动态地进行声场测量并对参数进行实时的调整或微调。

示例性装置

如图5所示，根据本公开的实施例的示例装置可以包括声源定位模块SP、区域确定模块RD、语音识别模块SR和播放控制模块PC。

声源定位模块SP可以被配置为确定每个说话人的位置和语音信号。在一个实施例中，声源定位模块SP可以包括诸如通用处理器、现场可编程门阵列、ARM处理器等类型的一个或多个处理器，以便根据所接收的图像和声音，确定每个说话人的位置和语音信号。声源定位模块SP还可以被配置为将所确定的每个说话人的语音信号传送给语音识别模块SR。另外，声源定位模块SP还可以被配置为将所确定的每个说话人的位置信息传送给区域确定模块RD。

区域确定模块RD可以被配置为根据每个说话人的位置信息确定每个说话人所在的区域。在一个实施例中，区域确定模块RD可以包括诸如通用处理器、现场可编程门阵列、ARM处理器等类型的一个或多个处理器。另外，区域确定模块RD还可以被配置为将所确定的每个说话人所在的区域信息传送给播放控制模块PC。

语音识别模块SR可以被配置为确定每个语音信号对应的语音指令。在一个实施例中，语音识别模块SR可以包括诸如通用处理器、现场可编程门阵列、ARM处理器等类型的一个或多个处理器，以便根据来自声源定位模块SP的语音信号执行语音识别。另外，语音识别模块SR还可以被配置将识别出的各个语音指令传送给播放控制模块PC。

播放控制模块PC可以被配置为控制所述多个扬声器分别针对每个语音指令的话话人所在的区域播放由对应的语音指令所指示的音频。

在一个实施例中，播放控制模块PC可以包括诸如通用处理器、现场可编程门阵列、ARM处理器等类型的一个或多个处理器，以便根据来自区域确定模块RD的语音指令的话话人所在的区域信息和来自语音识别模块SR的语音指令，确定与各个语音指令的话话人相对应的音频和相应的播放参数，并根据各个语音指令的话话人的位置信息，从扬声器S1至Sn中选择相应的一个或多个扬声器进行播放。

在一个实施例中，声源定位模块SP、区域确定模块RD、语音识别模块SR和播放控制模块PC通过总线互连，并且播放控制模块PC可以通过有线或无线的方式与所有的扬声器相连。

应当理解，图5所示的结构仅为根据本公开的实施例的装置的一个示例。例如，根据本公开的实施例的装置还可以包括其他部件或模块，或者可以具有其他结构。

例如，如图6所示，在图5的示例结构的基础上，根据本公开的实施例的装置还可以包括专门用于进行图像处理(例如，图像识别、图像检测等)的图像处理模块GP。

在一个实施例中，图像处理模块GP可以包括诸如通用处理器、图像处理器、现场可编程门阵列、ARM处理器等类型的一个或多个处理器。在另外的实施例中，例如在使用人工神经网络等人工智能技术进行图像处理的情况下，图像处理模块GP还可以包括专门的人工智能芯片、运算加速引擎等。

图像处理模块GP可以包括能够连接一个或多个图像传感器(例如相机等)CAM的接口，以便接收由一个或多个图像传感器CAM采集的图像数据或视频数据以及向一个或多个图像传感器CAM发送控制指令。根据不同的实施例，这样的接口可以是任何形式的有线或无线接口。在另外的实施例中，图像处理模块GP本身可以包括一个或多个图像传感器。

例如，如图7所示，在图6的示例结构的基础上，根据本公开的实施例的装置还可以包括感测信息处理模块SEP。

感测信息处理模块SEP可以通过有线或无线的方式连接到一个或多个传感器SES1至SESm，以便收集来自各个传感器的感测信息并对所收集的感测信息进行处理和分析，例如，对所收集的感测信息进行模数转换并且与预定的阈值进行比较，等等。如前文所述，这样的传感器SES1至SESm可以诸如人体接近传感器、人体活动检测器、压力传感器等一种或多种类型的至少一个传感器。

取决于要解析的感测信息的类型，感测信息处理模块SEP可以具有不同的电路实现方式。例如，感测信息处理模块SEP可以包括诸如通用处理器、图像处理器、现场可编程门阵列、ARM处理器等类型的一个或多个处理器。例如，对于压力值的情况，感测信息处理模块SEP也可以包括一个或多个模数转换器和一个或多个数字比较器，以便将感测到的压力值与预定的阈值进行比较。

在一个实施例中，感测信息处理模块SEP可以被配置为在感测到的信息满足预定的条件(例如，所感测的压力值大于阈值)的情况下向图像处理模块GP发出使能信号。

在另外的实施例中，感测信息处理模块SEP还可以被配置为将感测位置或感测区域相关的信息发送给图像处理模块GP。例如，在感测信息处理模块SEP确定来自压力传感器SES2的压力值超过阈值的情况下，感测信息处理模块SEP可以在向图像处理模块GP发出使能信号的同时，将诸如压力传感器SES2的ID、位置等能够指示相关位置或区域的信息一起发送给图像处理模块GP，以便图像处理模块GP能够更准确地采集图像。

例如，在图5至图7的任一种示例结构的基础上，根据本公开的实施例的装置还可以包括声音处理模块SNDP。图8示出在图7的示例结构基础上增加声音处理模块SNDP的示例。

声音处理模块SNDP可以通过有线或无线的方式连接到一个或多个声音传感器MIC，并且可以被配置为对由声音传感器MIC采集的声音信号进行诸如降噪等处理。

在一个实施例中，声音处理模块SNDP可以包括一个或多个诸如通用处理器、现场可编程门阵列等类型的一个或多个处理器。在另外的实施例中，声音处理模块SNDP还可以包括诸如高通滤波器、自适应滤波器、能量检测器、信号叠加器等部件。在另外的实施例中，声音处理模块SNDP还可以耦接到扬声器，以便于进行回声消除。

根据不同的实施例，声音传感器MIC可以包括诸如模拟麦克风等声音采集装置，并且还可以包括模数转换器等部件。

例如，在图5至图8的任一种示例结构的基础上，可以将播放控制模块PC中的与设置和调整播放参数相关的部分分离出来，并单独设置扬声器参数设置模块SPT。图9示出在图8的示例结构的基础上单独设置扬声器参数设置模块SPT的示例。

扬声器参数设置模块SPT可以被配置为根据声场测量的结结果，设置/调整并保存一组扬声器参数，该组参数能够使得每个扬声器对相应的座位或播放区域的输出声压级相对于其他座位或播放区域的声压级的差值最大。在一个实施例中，声音处理模块SNDP可以包括一个或多个诸如通用处理器、现场可编程门阵列等类型的一个或多个处理器。

在一个实施例中，扬声器参数设置模块SPT还可以被配置为根据来自扬声器和/或麦克风的反馈进行声场测量。

在另一个实施例中，扬声器参数设置模块SPT还可以包括能够接收来自键盘、触摸屏、按钮、旋钮等输入设备的接口，以便允许用户手动地调整扬声器参数。

根据不同的实施例，上面提到的各个模块可以是通过连线或总线等互连的各个单独的电路或芯片，也可以是集成在一个芯片中，或者也可以是将一些模块一体地实现并且将另外的一些模块一体地实现。另外，可以通过诸如通用串行总线接口、红外接口等各种有线接口或无线接口将上述模块与图像传感器、声音传感器、扬声器以及其他各种传感器等装置相连。

在另外的实施例中，如图10所示，可以由诸如通用处理器、现场可编程门阵列、ARM处理器等类型的一个或多个处理器PU实现上述模块的功能。在一个实施例中，处理器PU可以被配置为能够执行上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

另外，如图10所示，该示例装置还可以包括用于存储处理器PU的可执行指令和/或相关数据的存储器MEM以及用于图像传感器、声音传感器、扬声器以及其他各种传感器等装置互连的接口I/O。根据不同的实施例，接口I/O可以是诸如通用串行总线接口、红外接口等各种有线接口或无线接口。

示例性电子设备

本公开的实施例还可以是允许控制多个扬声器播放音频的电子设备，该电子设备可以包括根据本公开的实施例的任何一种示例性装置，例如可以包括图10所示的示例性装置。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，该计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，程序设计语言可以包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，例如计算机可读取的非临时性存储介质，其上存储有程序指令，程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪速存储器)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

在本文中，诸如“第一”、“第二”等不带有量词的修饰词旨在用于区分不同的元件/部件/电路/模块/装置/步骤，而不用于强调次序、位置关系、重要程度、优先级别等。与此不同，诸如“第一个”、“第二个”等带有量词的修饰词可以用于强调不同的元件/部件/电路/模块/装置/步骤的次序、位置关系、重要程度、优先级别等。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种控制多个扬声器播放音频的方法，包括：

确定每个说话人的位置信息和发出的语音信号；

根据每个说话人的位置信息确定每个说话人所在的区域；

确定每个语音信号对应的语音指令；以及

控制所述多个扬声器分别针对每个语音指令的说话人所在的区域播放由对应的语音指令所指示的音频。

2.根据权利要求1所述的方法，还包括：

确定至少一个预测位置；

获取图像传感器采集的所述至少一个预测位置的图像；

根据所采集的图像确定至少一个唇动者；以及

从所述至少一个唇动者中确定每个说话人。

3.根据权利要求2所述的方法，其中，确定至少一个预测位置包括：

接收来自至少一个传感器的感测信息；以及

根据所接收的感测信息确定所述至少一个预测位置。

4.根据权利要求2所述的方法，其中，所述至少一个传感器包括至少一个预定座位处的至少一个压力传感器，并且所述至少一个预测位置包括所述至少一个压力传感器所感测的压力值大于阈值的每个预定座位。

5.根据权利要求2所述的方法，其中，确定每个说话人的位置信息和发出的语音信号包括：

在每个唇动者的唇动方向上增强由声音传感器采集的声音信号；

通过分离经增强的声音信号，获得与每个唇动者相对应的分离信号；以及

将能量大于阈值的分离信号确定为说话人发出的语音信号。

6.根据权利要求1至5中的任一项所述的方法，其中，控制所述多个扬声器分别针对每个语音指令的说话人所在的区域播放由对应的语音指令所指示的音频包括：

响应于任一语音指令的说话人的语音指令，确定对应的音频以及所述多个扬声器中与所述任一语音指令的说话人所在的区域相对应的至少一个扬声器；以及

控制所述至少一个扬声器以相应的播放参数播放对应的音频。

7.根据权利要求6所述的方法，还包括：

在所述任一语音指令的说话人所在的区域进行声场测量；以及

根据声场测量的结果确定所述至少一个扬声器的相应的播放参数。

8.一种控制多个扬声器播放音频的装置，包括：

声源定位模块，被配置为确定每个说话人的位置信息和发出的语音信号；

区域确定模块，被配置为根据每个说话人的位置信息确定每个说话人所在的区域；

语音识别模块，被配置为确定每个语音信号对应的语音指令；以及

播放控制模块，被配置为控制所述多个扬声器分别针对每个语音指令的说话人所在的区域播放由对应的语音指令所指示的音频。

9.一种电子设备，包括：

处理器，被配置为执行根据权利要求1至7中的任一项所述的方法；以及

存储器，被配置为存储所述处理器的可执行指令。

10.一种计算机可读存储介质，在其上存储有程序指令，所述程序指令在被计算机执行时执行根据权利要求1至7中的任一项所述的方法。