CN114678021A

CN114678021A - 音频信号的处理方法、装置、存储介质及车辆

Info

Publication number: CN114678021A
Application number: CN202210295717.8A
Authority: CN
Inventors: 钱思冲; 高鹏; 吴俊楠
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-28
Anticipated expiration: 2042-03-23
Also published as: CN114678021B

Abstract

本公开涉及一种音频信号的处理方法、装置、存储介质及车辆，涉及车辆控制领域，应用于车辆，车辆上设置有多个声音采集装置，每个声音采集装置分别设置在对应的音区内，每个音区内包括至少一个座位。该方法包括：获取每个声音采集装置采集的原始音频信号。根据方位信息，对多个声音采集装置采集的原始音频信号进行处理，得到至少一个声源信号和每个声源信号所属的目标音区，方位信息表征每个声音采集装置与每个音区中座位的位置关系。对每个声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，以控制车辆执行控制指令。本公开能够提高语音识别的准确率和有效性，从而对车辆进行精准、灵活地控制。

Description

音频信号的处理方法、装置、存储介质及车辆

技术领域

本公开涉及车辆控制领域，尤其涉及一种音频信号的处理方法、装置、存储介质及车辆。

背景技术

随着社会的快速发展，汽车的智能化程度越来越高，其中语音控制技术作为最自然和便捷的交互方式，越来越广泛地应用在车辆控制领域。通常情况下，车内的用户可以通过语音指令对车辆进行控制，例如通过语音指令播放音乐、关闭车窗、打开空调等。但是，当车辆中有多人同时讲话时，会对语音指令产生干扰，降低了语音识别的准确率。

发明内容

为克服相关技术中存在的问题，本公开提供一种音频信号的处理方法、装置、存储介质及车辆。

根据本公开实施例的第一方面，提供一种音频信号的处理方法，应用于车辆，所述车辆上设置有多个声音采集装置，每个所述声音采集装置分别设置在对应的音区内，每个所述音区内包括至少一个座位；所述方法包括：

获取每个所述声音采集装置采集的原始音频信号；

根据方位信息，对多个所述声音采集装置采集的所述原始音频信号进行处理，得到至少一个声源信号和每个所述声源信号所属的目标音区，所述方位信息表征每个所述声音采集装置与每个所述音区中座位的位置关系；

对每个所述声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，以控制所述车辆执行所述控制指令。

可选地，所述根据方位信息，对多个所述声音采集装置采集的所述原始音频信号进行处理，得到至少一个声源信号和每个所述声源信号所属的目标音区，包括：

根据所述方位信息和多个所述声音采集装置采集的所述原始音频信号，确定至少一个所述声源信号；

根据所述方位信息中包括的方向向量与音区的对应关系，确定每个所述声源信号所属的目标音区。

可选地，所述声音采集装置和所述音区均为第一数量个，每两个所述声音采集装置之间的距离大于预设阈值；所述方法还包括：

根据第一数量个所述声音采集装置的位置和第一数量个所述音区中座位的位置，确定第二数量个方位信息元素，所述第二数量为所述第一数量的平方，所述方位信息元素表征一个所述声音采集装置与一个所述音区中座位的位置关系；

根据第二数量个所述方位信息元素，确定所述方位信息，所述方位信息中包括：每个所述音区对应的方向向量。

可选地，所述方法还包括：

确定目标座位，以及每个所述目标座位对应的目标声音采集装置；

所述根据方位信息，对多个所述声音采集装置采集的所述原始音频信号进行处理，得到至少一个声源信号和每个所述声源信号所属的目标音区，包括：

根据所述方位信息，对所述目标声音采集装置采集到的所述原始音频信号进行处理，得到至少一个声源信号和每个所述声源信号所属的目标音区。

可选地，所述确定目标座位，包括：

根据每个所述座位对应的压力，确定存在用户的所述目标座位；和/或，

根据每个所述座位对应的用户的面部动作，确定发声用户所在的所述目标座位。

可选地，在所述对每个所述声源信号进行识别之前，所述方法还包括：

通过预先训练的降噪模型对多个所述声源信号进行降噪处理，以得到多个处理后的所述声源信号；

所述对每个所述声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，包括：

对每个处理后的所述声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令。

根据本公开实施例的第二方面，提供一种音频信号的处理装置，应用于车辆，所述车辆上设置有多个声音采集装置，每个所述声音采集装置分别设置在对应的音区内，每个所述音区内包括至少一个座位；所述装置包括：

获取模块，被配置为获取每个所述声音采集装置采集的原始音频信号；

第一处理模块，被配置为根据方位信息，对多个所述声音采集装置采集的所述原始音频信号进行处理，得到至少一个声源信号和每个所述声源信号所属的目标音区，所述方位信息表征每个所述声音采集装置与每个所述音区中座位的位置关系；

第一确定模块，被配置为对每个所述声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，以控制所述车辆执行所述控制指令。

可选地，所述第一处理模块被配置为：

可选地，所述声音采集装置和所述音区均为第一数量个，每两个所述声音采集装置之间的距离大于预设阈值；所述装置还包括：

第二确定模块，被配置为根据第一数量个所述声音采集装置的位置和第一数量个所述音区中座位的位置，确定第二数量个方位信息元素，所述第二数量为所述第一数量的平方，所述方位信息元素表征一个所述声音采集装置与一个所述音区中座位的位置关系；

第三确定模块，被配置为根据第二数量个所述方位信息元素，确定所述方位信息，所述方位信息中包括：每个所述音区对应的方向向量。

可选地，所述装置还包括：

第四确定模块，被配置为确定目标座位，以及每个所述目标座位对应的目标声音采集装置；

所述第一处理模块被配置为：

可选地，所述第一确定模块被配置为：

可选地，所述装置还包括：

第二处理模块，被配置为在所述对每个所述声源信号进行识别之前，通过预先训练的降噪模型对多个所述声源信号进行降噪处理，以得到多个处理后的所述声源信号；

所述第一确定模块被配置为：

根据本公开实施例的第三方面，提供一种音频信号的处理装置，应用于车辆，所述车辆上设置有多个声音采集装置，每个所述声音采集装置分别设置在对应的音区内，每个所述音区内包括至少一个座位；包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取每个所述声音采集装置采集的原始音频信号；

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的音频信号的处理方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开应用于车辆，其中车辆上设置有多个声音采集装置，每个声音采集装置分别设置在对应的音区内，每个音区内包括至少一个座位。首先获取每个声音采集装置采集的原始音频信号，并根据方位信息，对多个声音采集装置采集的原始音频信号进行处理，得到至少一个声源信号和每个声源信号所属的目标音区，其中方位信息表征每个声音采集装置与每个音区中座位的位置关系。之后对每个声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，从而控制车辆执行控制指令。本公开根据方位信息得到声源信号和声源信号所属的目标音区，并根据声源信号和目标音区确定相应的控制指令，能够提高语音识别的准确率和有效性，从而对车辆进行精准、灵活地控制。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种音频信号的处理方法的流程图；

图2是根据图1实施例示出的一种划分车辆音区的示意图；

图3是根据一示例性实施例示出的另一种音频信号的处理方法的流程图；

图4是根据一示例性实施例示出的另一种音频信号的处理方法的流程图；

图5是根据一示例性实施例示出的另一种音频信号的处理方法的流程图；

图6是根据一示例性实施例示出的另一种音频信号的处理方法的流程图；

图7是根据一示例性实施例示出的另一种音频信号的处理方法的流程图；

图8是根据一示例性实施例示出的一种音频信号的处理装置的框图；

图9是根据一示例性实施例示出的另一种音频信号的处理装置的框图；

图10是根据一示例性实施例示出的另一种音频信号的处理装置的框图；

图11是根据一示例性实施例示出的另一种音频信号的处理装置的框图；

图12是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音频信号的处理方法的流程图，如图1所示，应用于车辆，车辆上设置有多个声音采集装置，每个声音采集装置分别设置在对应的音区内，每个音区内包括至少一个座位。该方法包括：

在步骤S101中，获取每个声音采集装置采集的原始音频信号。

示例的，本公开的执行主体可以是车辆，车辆上设置有多个声音采集装置，每个声音采集装置分别设置在对应的音区内，每个音区内包括至少一个座位。例如，如图2所示，当车辆上有4个座位时，可以将车辆划分为4个音区，每个音区中包括一个座位和一个声音采集装置，即车辆上共设置4个声音采集装置。图2中的虚线将车辆划分为4个音区Z1、Z2、Z3、Z4，每个音区中设置有一个声音采集装置，声音采集装置M1设置在音区Z1中，声音采集装置M2设置在音区Z2中，声音采集装置M3设置在音区Z3中，声音采集装置M4设置在音区Z4中。其中，声音采集装置可以是麦克风，麦克风例如可以是全指向性麦克风。首先可以获取每个声音采集装置采集的原始音频信号，当车辆上有多个用户同时讲话时，每个声音采集装置都可以采集到多个用户发出的声源信号，声源信号即为用户发出的声音信号。对于同一个声源信号，每个声音采集装置采集到的该声源信号的时延和强度不同。例如，当主驾驶位的用户和副驾驶位的用户同时讲话时，车辆上设置的每个声音采集装置都能采集到主驾驶位的用户和副驾驶位的用户发出的声源信号，其中，主驾驶位所属的音区中的声音采集装置采集到的主驾驶位的用户发出的声源信号的时延最小、强度最大，副驾驶位所属的音区中的声音采集装置采集到的副驾驶位的用户发出的声源信号的时延最小、强度最大。

在步骤S102中，根据方位信息，对多个声音采集装置采集的原始音频信号进行处理，得到至少一个声源信号和每个声源信号所属的目标音区，方位信息表征每个声音采集装置与每个音区中座位的位置关系。

示例的，可以将多个声音采集装置采集的原始音频信号，以及方位信息作为盲源分离算法的输入，通过盲源分离算法对多个声音采集装置采集的原始音频信号进行处理，以从多个原始音频信号中分离出至少一个声源信号，并根据方位信息确定每个声源信号所属的目标音区。其中，方位信息可以表征每个声音采集装置与每个音区中座位的位置关系。方位信息可以是矩阵的形式，每个声源信号可以对应方位信息中的多个方位信息元素，每个声源信号对应的多个方位信息元素例如可以是方位信息对应的矩阵中的一行或一列。以音区的数量为6个为例，方位信息可以为6行6列的矩阵，共有36个方位信息元素，每个方位信息元素用于指示一个声音采集装置与一个音区中座位的位置关系，每个声源信号可以对应方位信息中的6个方位信息元素。

从多个原始音频信号中分离出至少一个声源信号之后，可以根据方位信息中每个声源信号对应的多个方位信息元素，确定每个声源信号所属的目标音区，并将每个声源信号从该声源信号所属的目标音区对应的输出通道输出。以音区的数量为4个、声源信号a属于第一音区、声源信号b属于第二音区、声源信号c属于第三音区、声源信号d属于第四音区，第一音区对应A输出通道、第二音区对应B输出通道、第三音区对应C输出通道、第四音区对应D输出通道为例，可以将声源信号a从A输出通道输出，将声源信号b从B输出通道输出，将声源信号c从C输出通道输出，将声源信号d从D输出通道输出。

在步骤S103中，对每个声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，以控制车辆执行控制指令。

示例的，在将每个声源信号输出之后，可以将每个声源信号发送至对应的唤醒模块，当该声源信号满足唤醒条件时，可以唤醒对应的唤醒模块，之后唤醒模块可以将该声源信号发送给识别模块。在车辆处于离线状态或在线状态时，识别模块均可以对该声源信号进行相应的语音识别，例如可以提取声源信号中的关键词并根据关键词生成识别结果。之后可以根据识别结果与该声源信号所属的目标音区确定控制指令，从而控制车辆执行控制指令。这样，即使多个声源信号相同，也可以根据每个声源信号所属的不同音区确定不同的控制指令，从而对车辆进行灵活地控制。例如，在车辆处于离线状态的情况下，副驾驶位上的用户说“关闭窗户”，可以通过步骤101-102的处理，得到声源信号为“关闭窗户”，且该声源信号所属的音区为副驾驶位所在的音区。识别模块可以对该声源信号进行识别，并结合副驾驶位所在的音区，确定关闭副驾驶位的窗户的控制指令，从而控制副驾驶位的窗户关闭。又例如，在车辆处于离线状态的情况下，主驾驶位上的用户说“关闭窗户”，可以通过步骤101-102的处理，得到声源信号为“关闭窗户”，且该声源信号所属的音区为主驾驶位所在的音区。识别模块可以对该声源信号进行识别，并结合主驾驶位所在的音区，确定关闭车辆的所有窗户的控制指令，从而控制车辆的所有窗户关闭。再例如，在车辆处于在线状态的情况下，当主驾驶位上的用户说“打开地图”，可以通过步骤101-102的处理，得到声源信号为“打开地图”，且该声源信号所属的音区为主驾驶位所在的音区。识别模块可以将“打开地图”的声源信号发送至服务器，由服务器对该声源信号进行识别，并结合主驾驶位所在的音区，确定打开地图的控制指令，从而打开车载终端中的地图。

综上所述，本公开应用于车辆，其中车辆上设置有多个声音采集装置，每个声音采集装置分别设置在对应的音区内，每个音区内包括至少一个座位。首先获取每个声音采集装置采集的原始音频信号，并根据方位信息，对多个声音采集装置采集的原始音频信号进行处理，得到至少一个声源信号和每个声源信号所属的目标音区，其中方位信息表征每个声音采集装置与每个音区中座位的位置关系。之后对每个声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，从而控制车辆执行控制指令。本公开根据方位信息得到声源信号和声源信号所属的目标音区，并根据声源信号和目标音区确定相应的控制指令，能够提高语音识别的准确率和有效性，从而对车辆进行精准、灵活地控制。

图3是根据一示例性实施例示出的另一种音频信号的处理方法的流程图，如图3所示，步骤S102可以通过以下步骤来实现：

在步骤S1021中，根据方位信息和多个声音采集装置采集的原始音频信号，确定至少一个声源信号。

在步骤S1022中，根据方位信息中包括的方向向量与音区的对应关系，确定每个声源信号所属的目标音区。

示例的，在获取到每个声音采集装置采集到的原始音频信号之后，可以将方位信息和多个声音采集装置采集的原始音频信号作为盲源分离算法的输入，通过盲源分离算法对方位信息和多个声音采集装置采集的原始音频信号进行处理，得到至少一个声源信号。由于每个声源信号均对应方位信息中的一个方向向量，并且每个方位信息中包括的多个方向向量元素与各个音区之间存在预设的对应关系。其中，以方位信息为矩阵形式为例，方向向量可以是方位信息中的一列，每个方向向量(即每列方位信息元素)用于指示一个音区与每个声音采集装置之间的位置关系。因此可以根据每个声源信号对应的方向向量，和多个方向向量与各个音区之间的对应关系，确定每个声源信号所属的目标音区。

图4是根据一示例性实施例示出的另一种音频信号的处理方法的流程图，如图4所示，声音采集装置和音区均为第一数量个，每两个声音采集装置之间的距离大于预设阈值。该方法还包括：

在步骤S104中，根据第一数量个声音采集装置的位置和第一数量个音区中座位的位置，确定第二数量个方位信息元素，第二数量为第一数量的平方，方位信息元素表征一个所述声音采集装置与一个音区中座位的位置关系。

在步骤S105中，根据第二数量个方位信息元素，确定方位信息，方位信息中包括：每个音区对应的方向向量。

示例的，声音采集装置和音区可以均为第一数量个，每两个声音采集装置之间的距离可以大于预设阈值，从而保证每个声源信号可以从声音采集装置采集到的原始音频信号中准确地分离出来，其中预设阈值例如可以为0.5m。首先可以根据第一数量个声音采集装置的位置和第一数量个音区中座位的位置，确定第二数量个方位信息元素，其中第二数量为第一数量的平方。之后可以将第二数量个方位信息元素作为方位信息中的元素，其中方位信息包括：每个音区对应的方向向量。具体的，以方位信息为矩阵形式为例，方位信息中第P行、第M列个元素可以为：根据第P个声音采集装置的位置和第M个音区中座位的位置确定的方位信息元素，P和M均为小于或等于第一数量的正整数。方位信息中的第M列元素可以为：第M个音区对应的方向向量。

以第一数量为4个为例，可以将车辆划分为4个音区，如图2所示，由于在车辆中声音采集装置和声源的距离非常近，所以可以通过近场的声音传播模型来进行分析。以图2中两条虚线交叉点为原点，第p(p＝1，2，3，4)个声音采集装置的坐标为R_p＝[x_p，y_p，z_p]，第m(m＝1，2，3，4)个声源的坐标为R_m＝[x_m，y_m，z_m]，其中第m个声源的坐标可以根据该声源所属的第m个音区中座位的位置得到，那么第p个声音采集装置采集到的原始音频信号可以如公式1所示：

其中，n为采集时刻，y_p(n)为第p个声音采集装置在n时刻采集到的原始音频信号，

表示第m个声源产生的声源信号传播到第p个声音采集装置后的幅值衰减系数，

表示第m个声源产生的声源信号传播到第p个声音采集装置的时长，

||R_p-R_m||为第m个声源与第p个声音采集装置之间的欧式距离，v为空气中的声速。

由于声源与声音采集装置之间的距离很近，可以认为幅值衰减系数

因此可以将公式1变换到频域得到公式2：

Y(f)＝D(f)S(f) (公式2)

其中，f＝1，2，...，F为频点，Y(f)＝[Y₁(f)，...，Y₄(f)]^T为4个声音采集装置接收到的原始音频信号在频域的表示，S(f)＝[S₁(f)，...，S₄(f)]^T为4个声源信号在频域的表示，D(f)＝[d⁽¹⁾(f)，...，d⁽⁴⁾(f)]为方位信息，d^(m)(f)为第m个声源所属的第m个音区对应的方向向量，且

为根据第p个声音采集装置的位置和第m个声源的位置确定的方位信息元素。

图5是根据一示例性实施例示出的另一种音频信号的处理方法的流程图，如图5所示，该方法还包括：

在步骤S106中，确定目标座位，以及每个目标座位对应的目标声音采集装置。

相应的，步骤S102的一种实现方式可以为：

根据方位信息，对目标声音采集装置采集到的原始音频信号进行处理，得到至少一个声源信号和每个声源信号所属的目标音区。

示例的，在根据盲源分离算法和方位信息，对声音采集装置采集到的原始音频信号进行处理之前，可以先确定存在声源的目标座位，以及每个目标座位对应的目标声音采集装置。之后只需将存在声源的目标座位对应的目标声音采集装置采集到的原始音频信号，以及方位信息作为盲源分离算法的输入，利用盲源分离算法对目标声音采集装置采集到的原始音频信号进行处理，从而得到至少一个声源信号和每个声源信号所属的目标音区，也就是说输出的声源信号为目标座位所属的目标音区的声源信号。例如，当检测到只有主驾驶位上和副驾驶位上存在声源，后排座位上不存在声源，那么可以确定主驾驶位和副驾驶位为目标座位，并且可以只将主驾驶位和副驾驶位对应的目标声音采集装置采集到的原始音频信号和方位信息作为盲源分离算法的输入，利用盲源分离算法进行处理，得到主驾驶位上的用户发出的声源信号和副驾驶位上的用户发出的声源信号。这样，通过确定存在声源的目标座位，并对目标座位对应的目标声音采集装置采集到的原始音频信号进行处理，无需对不存在声源的座位对应的声音采集装置采集到的原始音频信号进行处理，能够降低信号处理的复杂度，提高了信号处理效率。

图6是根据一示例性实施例示出的另一种音频信号的处理方法的流程图，如图6所示，步骤S106可以通过以下步骤来实现：

在步骤S1061中，根据每个座位对应的压力，确定存在用户的目标座位。和/或，

在步骤S1062中，根据每个座位对应的用户的面部动作，确定发声用户所在的目标座位。

示例的，可以在车辆中的每个座位上安装压力传感器，通过压力传感器来检测该座位上的压力，从而确定目标座位。如果压力传感器检测到的压力值大于预设的压力阈值，那么可以确定该座位为存在用户的目标座位。也可以通过车辆上设置的摄像头拍摄的静态图像、动态图像或视频，来检测车辆中每个用户的面部动作，并识别出正在说话的发声用户，将发声用户所在的座位作为目标座位。还可以结合压力传感器检测到的压力值和摄像头检测到的面部动作，共同来确定目标座位。例如，可以在座位的压力值大于预设的压力阈值，且根据摄像头检测到的面部动作确定该座位上乘坐的用户为发声用户的情况下，确定该座位为目标座位。又例如，可以在座位的压力值大于预设的压力阈值，或者根据摄像头检测到的面部动作确定该座位上乘坐的用户为发声用户的情况下，确定该座位为目标座位。本公开对此不做具体限定。

图7是根据一示例性实施例示出的另一种音频信号的处理方法的流程图，如图7所示，在步骤S103之前，该方法还包括：

在步骤S107中，通过预先训练的降噪模型对多个声源信号进行降噪处理，以得到多个处理后的声源信号。

相应的，步骤S103的一种实现方式可以为：

对每个处理后的声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令。

示例的，在根据盲源分离算法和方位信息，对多个声音采集装置采集的原始音频信号进行处理，从而得到至少一个声源信号和每个声源信号所属的目标音区之后，可以根据每个声源信号对应的目标音区将该声源信号从对应的输出通道输出。进一步的，可以将每个输出通道输出的声源信号通过预先训练的降噪模型对每个声源信号进行降噪处理，从而得到多个降低噪声的声源信号。其中，降噪模型可以是神经网络降噪模型。之后，可以通过识别模块对经过降噪模型处理得到的每个声源信号进行识别。例如可以通过识别模块提取声源信号中的关键词，并根据关键词生成识别结果。之后根据识别结果与该声源信号所属的目标音区确定控制指令，从而控制车辆执行控制指令。这样，通过降噪模型对盲源分离算法输出的声源信号进行处理，可以降低声源信号中的环境噪声，从而提高语音识别的准确度。

图8是根据一示例性实施例示出的一种音频信号的处理装置的框图，如图8所示，应用于车辆，车辆上设置有多个声音采集装置，每个声音采集装置分别设置在对应的音区内，每个音区内包括至少一个座位。该装置200包括：

获取模块201，被配置为获取每个声音采集装置采集的原始音频信号。

第一处理模块202，被配置为根据方位信息，对多个声音采集装置采集的原始音频信号进行处理，得到至少一个声源信号和每个声源信号所属的目标音区，方位信息表征每个声音采集装置与每个音区中座位的位置关系。

第一确定模块203，被配置为对每个声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，以控制车辆执行控制指令。

在一种应用场景中，第一处理模块202被配置为：

根据方位信息和多个声音采集装置采集的原始音频信号，确定至少一个声源信号。

根据方位信息中包括的方向向量与音区的对应关系，确定每个声源信号所属的目标音区。

图9是根据一示例性实施例示出的另一种音频信号的处理装置的框图，如图9所示，声音采集装置和音区均为第一数量个，每两个声音采集装置之间的距离大于预设阈值。该装置200还包括：

第二确定模块204，被配置为根据第一数量个声音采集装置的位置和第一数量个音区中座位的位置，确定第二数量个方位信息元素，第二数量为第一数量的平方，方位信息元素表征一个声音采集装置与一个音区中座位的位置关系。

第三确定模块205，被配置为根据第二数量个方位信息元素，确定方位信息，方位信息中包括：每个音区对应的方向向量。

图10是根据一示例性实施例示出的另一种音频信号的处理装置的框图，如图10所示，该装置200还包括：

第四确定模块206，被配置为确定目标座位，以及每个目标座位对应的目标声音采集装置。

相应的，第一处理模块202被配置为：

在另一种应用场景中，第一确定模块203被配置为：

根据每个座位对应的压力，确定存在用户的目标座位。和/或，

根据每个座位对应的用户的面部动作，确定发声用户所在的目标座位。

图11是根据一示例性实施例示出的另一种音频信号的处理装置的框图，如图11所示，该装置200还包括：

第二处理模块207，被配置为在对每个声源信号进行识别之前，通过预先训练的降噪模型对多个声源信号进行降噪处理，以得到多个处理后的声源信号。

相应的，第一确定模块203被配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种车辆，该车辆用于执行上述的音频信号的处理方法。

本公开还提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开提供的音频信号的处理方法的步骤。

图12是根据一示例性实施例示出的一种用于音频信号处理的装置300的框图。例如，装置300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图12，装置300可以包括以下一个或多个组件：处理组件302，存储器304，电力组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口312，传感器组件314，以及通信组件316。

处理组件302通常控制装置300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令，以完成上述音频信号的处理方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理组件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在装置300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件306为装置300的各种组件提供电力。电力组件306可以包括电源管理系统，一个或多个电源，及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当装置300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当装置300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为装置300提供各个方面的状态评估。例如，传感器组件314可以检测到装置300的打开/关闭状态，组件的相对定位，例如所述组件为装置300的显示器和小键盘，传感器组件314还可以检测装置300或装置300一个组件的位置改变，用户与装置300接触的存在或不存在，装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述音频信号的处理方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由装置300的处理器320执行以完成上述音频信号的处理方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的音频信号的处理方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号的处理方法，其特征在于，应用于车辆，所述车辆上设置有多个声音采集装置，每个所述声音采集装置分别设置在对应的音区内，每个所述音区内包括至少一个座位；所述方法包括：

获取每个所述声音采集装置采集的原始音频信号；

2.根据权利要求1所述的方法，其特征在于，所述根据方位信息，对多个所述声音采集装置采集的所述原始音频信号进行处理，得到至少一个声源信号和每个所述声源信号所属的目标音区，包括：

3.根据权利要求1所述的方法，其特征在于，所述声音采集装置和所述音区均为第一数量个，每两个所述声音采集装置之间的距离大于预设阈值；所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述确定目标座位，包括：

6.根据权利要求1所述的方法，其特征在于，在所述对每个所述声源信号进行识别之前，所述方法还包括：

7.一种音频信号的处理装置，其特征在于，应用于车辆，所述车辆上设置有多个声音采集装置，每个所述声音采集装置分别设置在对应的音区内，每个所述音区内包括至少一个座位；所述装置包括：

处理模块，被配置为根据方位信息，对多个所述声音采集装置采集的所述原始音频信号进行处理，得到至少一个声源信号和每个所述声源信号所属的目标音区，所述方位信息表征每个所述声音采集装置与每个所述音区中座位的位置关系；

确定模块，被配置为对每个所述声源信号进行识别，并根据识别结果与该声源信号所属的目标音区确定控制指令，以控制所述车辆执行所述控制指令。

8.一种音频信号的处理装置，其特征在于，应用于车辆，所述车辆上设置有多个声音采集装置，每个所述声音采集装置分别设置在对应的音区内，每个所述音区内包括至少一个座位；包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取每个所述声音采集装置采集的原始音频信号；

9.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

10.一种车辆，其特征在于，所述车辆用于执行权利要求1-6中任一项所述的音频信号的处理方法。