CN113286252A

CN113286252A - 一种声场重建方法、装置、设备及存储介质

Info

Publication number: CN113286252A
Application number: CN202110836253.2A
Authority: CN
Inventors: 卫慧慧; 马桂林; 胡明清; 高素云; 梁萌
Original assignee: Iflytek Suzhou Technology Co Ltd
Current assignee: Iflytek Suzhou Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-08-20
Anticipated expiration: 2041-07-23
Also published as: CN113286252B

Abstract

本申请提供了一种声场重建方法、装置、设备及存储介质，方法包括：获取目标区域中麦克风收集的声音信号作为目标声音信号，基于目标声音信号和预先建立的权重预测模型预测每个扬声器在目标声音信号上对应的权重，基于预测出的权重将声源信号分配给每个扬声器进行播放，以实现目标区域的声场重建，其中，一扬声器对应的权重为声源信号在该扬声器上的分配权重，权重预测模型采用声场重建区域对应的训练声音信号训练得到，权重预测模型的训练目标为，使基于每个扬声器在训练声音信号上对应的权重重建出的声音信号趋近于训练声音信号对应的声场重建区域的目标重建信号。本申请提供的声场重建方法针对声场重建区域能够精准地重建出期望的声音信号。

Description

一种声场重建方法、装置、设备及存储介质

技术领域

本申请涉及声场重建技术领域，尤其涉及一种声场重建方法、装置、设备及存储介质。

背景技术

随着三维电影、虚拟现实等技术的快速发展，声场重建技术作为向用户提供高逼真度浸入式体验的核心技术，获得了越来越多的关注。其中，声场重建技术能够使得处于同一空间不同区域内的人听到不同的声音信号，而不受其它区域声音信号的串扰，可以提高听音质量和语音可懂度等。

实现声场重建的大致思路是，针对目标重建信号（即指定声源信号），确定声源信号在指定空间中设置的扬声器上的分配权重，根据确定出的分配权重将声源信号分配给扬声器进行播放，以在指定的声场重建区域中还原出目标重建信号，即实现声场重建区域的声场重建。

目前的声场重建方案针对目标重建信号确定的分配权重是固定的，这导致当声场重建区域变化时，无法准确的还原出目标重建信号，即目前的声场重建方案的重建准确度不高，重建效果差。

发明内容

有鉴于此，本申请提供了一种声场重建方法、装置、设备及存储介质，用以解决现有技术中的声场重建方案的重建准确度不高，重建效果差的问题，其技术方案如下：

一种声场重建方法，包括：

获取目标区域中设置的麦克风收集的声音信号作为目标声音信号，其中，所述目标区域为指定空间中的一声场重建区域，所述指定空间中布设有多个扬声器；

基于所述目标声音信号以及预先建立的权重预测模型，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在所述目标声音信号上对应的权重，其中，所述权重预测模型采用声场重建区域对应的训练声音信号训练得到，所述权重预测模型的训练目标为，使基于每个扬声器在所述训练声音信号上对应的权重重建出的声音信号趋近于所述训练声音信号对应的声场重建区域的目标重建信号；

基于预测出的权重，将所述声源信号分配给每个扬声器进行播放，以实现所述目标区域的声场重建。

可选的，获取一声场重建区域对应的训练声音信号包括：

获取每个扬声器到该声场重建区域的冲击响应；

根据所述声源信号以及每个扬声器到该声场重建区域的冲击响应，确定该声场重建区域对应的声音信号，作为该声场重建区域对应的训练声音信号。

可选的，获取一声场重建区域对应的训练声音信号还包括：

在生成该声场重建区域对应的声音信号后，将生成的信号与指定噪声信号融合，得到融合有噪声的声音信号，作为该声场重建区域对应的训练声音信号。

可选的，获取一扬声器到该声场重建区域的冲击响应，包括：

使用该扬声器播放对数扫频信号；

利用该声场重建区域中设置的麦克风对该扬声器播放的对数扫频信号进行录制；

根据该声场重建区域中设置的麦克风录制的信号，确定该扬声器到该声场重建区域中设置的麦克风的冲击响应，作为该声场重建区域的冲击响应。

可选的，所述基于所述目标声音信号以及预先建立的权重预测模型，预测声源信号在每个扬声器上的分配权重，包括：

对所述目标声音信号中的每一帧提取音频特征，以得到目标声音信号对应的音频特征序列；

根据所述目标声音信号对应的音频特征序列，确定所述目标声音信号对应的帧间关系特征，其中，所述帧间关系特征为能够表征所述目标声音信号中帧与帧之间关系的特征；

将所述目标声音信号对应的音频特征序列和所述目标声音信号对应的帧间关系特征输入所述权重预测模型，得到所述声源信号在每个扬声器上的分配权重。

可选的，建立权重预测模型的过程包括：

基于所述训练声音信号和权重预测模型，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在所述训练声音信号上对应的权重；

基于每个扬声器在所述训练声音信号上对应的权重，对所述训练声音信号对应的声场重建区域进行信号重建，以得到所述训练声音信号对应的声场重建区域的重建信号；

根据所述训练声音信号对应的声场重建区域的重建信号以及所述训练声音信号对应的声场重建区域的目标重建信号确定预测损失，并根据确定出的预测损失对权重预测模型的参数进行更新。

可选的，所述权重预测模型采用多个声场重建区域分别对应的训练声音信号训练得到；

所述根据所述训练声音信号对应的声场重建区域的重建信号以及所述训练声音信号对应的声场重建区域的目标重建信号确定预测损失，并根据确定出的预测损失对权重预测模型的参数进行更新，包括：

根据每个声场重建区域的重建信号以及每个声场重建区域的目标重建信号，计算权重预测模型在每个声场重建区域上的预测损失；

将权重预测模型在各声场重建区域上的预测损失求和，并根据求和得到的损失对权重预测模型的参数进行更新。

可选的，建立权重预测模型的过程包括：

基于所述训练声音信号和权重预测模型，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在所述训练声音信号上对应的预测权重；

根据每个扬声器在所述训练声音信号上对应的预测权重，以及每个扬声器在所述训练声音信号上对应的真实权重确定预测损失，并根据确定出的预测损失对权重预测模型的参数进行更新。

可选的，所述声场重建方法还包括：

在建立所述权重预测模型后，基于所述指定空间中的声场重建区域设置的麦克风接收的声音信号，对所述权重预测模型进行优化。

一种声场重建装置，包括：信号获取模块、权重预测模块和声场重建模块；

所述信号获取模块，用于获取目标区域中设置的麦克风收集的声音信号作为目标声音信号，其中，所述目标区域为指定空间中的一声场重建区域，所述指定空间中布设有多个扬声器；

所述权重预测模块，用于基于所述目标声音信号以及预先建立的权重预测模型，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在所述目标声音信号上对应的权重，其中，所述权重预测模型采用声场重建区域对应的训练声音信号训练得到，所述权重预测模型的训练目标为，使基于每个扬声器在所述训练声音信号上对应的权重重建出的声音信号趋近于所述训练声音信号对应的声场重建区域的目标重建信号；

所述声场重建模块，用于基于预测出的权重，将所述声源信号分配给每个扬声器进行播放，以实现所述目标区域的声场重建。

一种声场重建设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的声场重建方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述任一项所述的声场重建方法的各个步骤。

经由上述方案可知，本申请提供的声场重建方法、装置、设备及存储介质，首先获取目标区域中的目标声音信号，然后基于预先建立的权重预测模型和目标声音信号，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在所述目标声音信号上对应的权重，最后基于预测出的权重将声源信号分配给每个扬声器进行播放，以实现目标区域的声场重建。由于权重预测模型采用声场重建区域对应的训练声音信号，以使基于扬声器在训练声音信号上对应的权重重建出的声音信号趋近于训练声音信号对应的声场重建区域的目标重建信号为目标训练得到，因此，权重预测模型具备能够根据任一声场重建区域中的声音信号预测出用于实现该声场重建区域声场重建的权重的能力，即，基于利用权重预测模型和目标区域中的目标声音信号预测出的权重，将多个声源信号分配给每个扬声器进行播放，能够实现目标区域的声场重建，即能够精准还原出目标区域的目标重建信号。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的声场重建方法的流程示意图；

图2为本申请实施例提供的基于权重将多个声源信号分配给每个扬声器进行播放以实现声场重建的示意图；

图3为本申请实施例提供的获取一声场重建区域对应的训练声音信号的一种实现方式的流程示意图；

图4为本申请实施例提供的获取一声场重建区域对应的训练声音信号的另一种实现方式的流程示意图；

图5为本申请实施例提供的利用训练声音信号训练权重预测模型的流程示意图；

图6为本申请实施例提供的声场重建装置的结构示意图；

图7为本申请实施例提供的声场重建设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

申请人在实现本案的过程中发现，针对目标重建信号，经由现有的声场重建方案确定的权重是固定的，这导致一旦声场重建区域变化，可能无法重建出准确的声音信号，鉴于现有的声场重建方案存在的问题，申请人进行了深入研究。申请人在研究过程中发现，现有方案无法重建出准确的声音信号的主要原因在于，权重（指的是声源信号在扬声器上的分配权重）与声场重建区域中的信号无关，权重与信号无关会导致当信号改变时，权重无法调整，申请人沿着这个思路继续研究，最终提出了一种能够实现声场精准重建的声场重建方法，该声场重建方式的大致思路是，利用声场重建区域对应的训练语音信号训练权重预测模型，使得声场重建区域具备根据声场重建区域中的声音信号预测出能够实现声场重建的权重的能力，进而在对目标区域进行声场重建时，基于权重预测模型和目标区域中的声音信号进行权重预测，从而基于预测出的权重将声源信号分配给扬声器播放，以实现目标区域的声场重建。

本申请提供的声场重建方案适用于任何需要进行声场重建的场景，比如，会议场景（可以指定某个或某些区域可听，其它区域不可听，以避免信息泄露或者打扰别人）、办公室通话场景（自己说话的声音可以指定区域可听，其它区域不可听，避免信息泄露，或者打扰别人）、车内（汽车的不同区域播放不同的声音）等。接下来通过下述实施例对本申请提供的声场重建方法进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的声场重建方法的流程示意图，该方法可以包括：

步骤S101：获取目标区域中设置的麦克风收集的声音信号，作为目标声音信号。

其中，目标区域为指定空间中的一声场重建区域，声场重建区域为需要进行声场重建的区域。需要说明的是，指定空间中可以有一个声场重建区域，也可以有多个声场重建区域，在指定空间有多个声场重建区域时。

在本实施例中，可在目标区域中设置麦克风（可以为一个麦克风，也可以为麦克风阵列），通过目标区域中设置的麦克风收集信号，目标区域中设置的麦克风收集的信号作为目标声音信号。目标声音信号可以为任何声音信号，比如语音信号、音乐信号等等。

步骤S102：基于目标声音信号以及预先建立的权重预测模型，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在所述目标声音信号上对应的权重。

其中，指定空间中布设有多个扬声器，多个扬声器可以随意的摆放在指定空间内，尽量包围所有的声场重建区域即可，而不一定要均匀排列成环形。本实施例中，一个扬声器对应的权重指的是，声源信号在该扬声器上的分配权重。

本实施例中的权重预测模型采用声场重建区域对应的训练声音信号训练得到，权重预测模型的训练目标为，使基于每个扬声器在训练声音信号上对应的权重重建出的声音信号趋近于训练声音信号对应的声场重建区域的目标重建信号，每个扬声器在训练声音信号上对应的权重由权重预测模型基于训练声音信号预测得到。

具体的，基于预先建立的权重预测模型，预测每个扬声器在目标声音信号上对应的权重的过程可以包括：

步骤S1021、对目标声音信号中的每一帧提取音频特征，以得到目标声音信号对应的音频特征序列。

考虑到MFCC特征充分考虑了人的听觉特性，拥有区别不同声源的能力，且具有良好的识别性能和抗噪性能，同时具有较小的特征维度，本实施例中的音频特征优选MFCC特征，当然，本实施例并不限定音频特征为MFCC特征，还可使用其他音频特征。

对目标声音信号中的每一帧提取MFCC特征的过程包括：对目标声音信号进行分帧、加窗和傅里叶变换，以得到目标声音信号中每一帧的频谱；根据人耳特性，确定mel滤波器组，利用mel滤波器组对目标声音信号中的每一帧的频谱进行梅尔能量的计算；对梅尔能量计算结果经离散余弦变换得到目标声音信号中的每一帧对应的MFCC特征。

其中，mel滤波器组的频谱响应表示为：

(1)

利用mel滤波器组对目标声音信号中的每一帧的频谱进行梅尔能量的计算式为：

(2)

其中，m表示mel滤波器组中的第m个滤波器，k为实际频域的离散值。

步骤S1022、根据目标声音信号对应的音频特征序列，确定目标声音信号对应的帧间关系特征。

需要说明的是，步骤S1021提取的音频特征为静态特征，为了后续能够获得较好的预测效果，本步骤进一步获取目标声音信号的动态特征，即能够表征目标声音信号中帧与帧之间关系的特征（即目标声音信号对应的帧间关系特征），以将静态特征与动态特征相结合。

具体的，根据目标声音信号对应的音频特征序列，确定目标声音信号对应的帧间关系特征的过程可以包括：对目标声音信号对应的音频特征序列进行一阶差分和二阶差分，一阶差分和二阶差分结果作为目标声音信号对应的帧间关系特征。更为具体的，可基于下式对目标声音信号对应的音频特征序列进行一阶差分和二阶差分：

(3)

(4)

示例性的，目标声音信号包含5帧信号，相应的，目标声音信号对应的音频特征序列包含5个音频特征，假设分别为X(1)、X(2)、X(3)、X(4)和X(5)，首先对X(1)~ X(5)进行一阶差分：Y(1)= X(2)- X(1)，Y(2)= X(3)- X(2)，Y(3)= X(4)- X(3)，Y(4)= X(5)- X(4)，Y(1) ~ Y(4)即为一阶差分结果，然后对Y(1) ~ Y(4)进行二阶差分：Z(1)= Y(2)- Y(1)，Z(2)= Y(3)- Y(2)，Z(3)= Y(4)- Y(3)，Z(1) ~ Z(3) 即为二阶差分结果，Y(1) ~ Y(4)、Z(1) ~ Z(3)作为帧间关系特征。

步骤S1023、将目标声音信号对应的音频特征序列和目标声音信号对应的帧间关系特征，输入预先建立的权重预测模型，得到权重预测模型输出的每个扬声器在目标声音信号上对应的权重。

权重预测模型基于输入的特征进行权重的预测。需要说明的是，本实施例并不限定输入权重预测模型的特征为目标声音信号对应的音频特征序列和目标声音信号对应的帧间关系特征，比如，可只将目标声音信号对应的音频特征序列输入权重预测模型，还可针对目标声音信号获取频域相位信息，将目标声音信号对应的音频特征序列、目标声音信号对应的帧间关系特征和目标声音信号的频域相位信息输入权重预测模型。

步骤S103：基于预测出的权重，将多个声源信号分配给每个扬声器进行播放，以实现目标区域的声场重建。

图2示出了基于权重将多个声源信号分配给每个扬声器进行播放以实现声场重建的示意图。在本实施例中，可通过将预测出的权重与多个声源信号进行频域相乘或时与卷积的方式，来获得每个扬声器需要播放的声音信号。

上述内容提到，指定空间中的声场重建区域可以为一个，也可以为多个，在指定空间中的声场重建区域为多个时，可针对多个声场重建区域重建一个声源信号，即多个重建区域的目标重建信号相同，也可针对多个声场重建区域重建不同的声源信号，即多个声场重建区域的目标重建信号不同，多个声场重建区域的目标重建信号不同包括两种情况，其中一种情况是，各声场重建区域的目标重建信号均不同，比如，声源信号有M个，重建区域为N个，当M=N时，可针对每个重建区域重建一个声源信息，即声源信号与重建区域一一对应，另一种情况是，一部分声场重建区域的目标重建信号相同，另一部分声场重建区域的目标重建信号各不相同，比如，声源信号有M个，重建区域为N个，当M<N时，可使部分声场重建区域重建一个声源信号，当然，当M=N时，也可使部分声场重建区域重建一个声源信号，各重建区域重建的声源信息根据具体场景设定。不管声场重建区域有多少个，也不管声场重建区域的目标重建信号为哪个声源信号，针对每个声场重建区域进行声场重建的方式相同，均是按上述步骤S101~步骤S103的实现方式进行声场重建。

本申请实施例提供的声场重建方法，首先获取目标区域中的目标声音信号，然后基于预先建立的权重预测模型和目标声音信号，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在所述目标声音信号上对应的权重，最后基于预测出的权重将声源信号分配给每个扬声器进行播放，以实现目标区域的声场重建。由于本申请实施例中的权重预测模型采用声场重建区域对应的训练声音信号，以使基于扬声器在训练声音信号上对应的权重重建出的声音信号趋近于训练声音信号对应的声场重建区域的目标重建信号为目标训练得到，因此，权重预测模型具备能够根据任一声场重建区域中的声音信号预测出用于实现该声场重建区域声场重建的权重的能力，即，基于利用权重预测模型和目标区域中的目标声音信号预测出的权重，将多个声源信号分配给每个扬声器进行播放，能够实现目标区域的声场重建，即能够精准还原出目标区域的目标重建信号。

第二实施例

可以理解的是，实现声场重建的关键在于，确定出声源信号在每个扬声器上的分配权重，而声源信号在每个扬声器上的分配权重由预先建立的权重预测模型预测，本实施例重点对建立权重预测模型的过程进行介绍。

上述实施例提到，权重预测模型采用指定空间中的声场重建区域对应的训练声音信号训练得到，在对建立权重预测模型的过程进行介绍之前，首先对获取声场重建区域对应的训练声音信号的过程进行介绍。

获取一声场重建区域对应的训练声音信号的实现方式有多种，请参阅图3，示出了获取一声场重建区域对应的训练声音信号的一种可能的实现方式的流程示意图，可以包括：

步骤S301：获取每个扬声器到该声场重建区域的冲击响应。

其中，每个扬声器到该声场重建区域的冲击响应为每个扬声器到该声场重建区域的声学传输路径。

具体的，获取每个扬声器到该声场重建区域的冲击响应的过程包括：使用该扬声器播放对数扫频信号；利用该声场重建区域中设置的麦克风对该扬声器播放的对数扫频信号进行录制；根据该声场重建区域中设置的麦克风录制的信号，确定该扬声器到该声场重建区域中设置的麦克风的冲击响应，作为该声场重建区域的冲击响应。

其中，该声场重建区域中设置的麦克风可以为一个也可以为多个，若该声场重建区域中设置的麦克风为多个，则该声场重建区域的冲击响应为该扬声器到该声场重建区域中每个麦克风的冲击响应。假设该声场重建区域中设置的麦克风的数量为NumMic，则一个扬声器到该声场重建区域中设置的麦克风的冲击响应为NumMic个，假设有L个扬声器，则L个扬声器到该声场重建区域中设置的麦克风的冲击响应为NumMic*L个。

步骤S302：根据声源信号以及每个扬声器到该声场重建区域的冲击响应，生成该声场重建区域对应的声音信号，作为该声场重建区域对应的训练声音信号。

具体的，可通过将声源信号与每个扬声器到该声场重建区域的冲击响应进行卷积，来生成该声场重建区域对应的训练声音信号。

需要说明的是，根据声源信号以及每个扬声器到该声场重建区域的冲击响应生成的声音信号模拟的是，该声场重建区域中麦克风接收的信号。

考虑到真实场景中，指定空间中可能存在噪声，为了能够训练出稳健性较强的权重预测模型，本申请提供了获取一声场重建区域对应的训练声音信号的另一种实现方式，请参阅图4，示出了该实现方式的流程示意图，可以包括：

步骤S401：获取每个扬声器到该声场重建区域的冲击响应。

步骤S401的具体实现过程与上述步骤S301的具体实现过程相同，本实施例在此不做赘述。

步骤S402：根据多个声源信号以及每个扬声器到该声场重建区域的冲击响应，生成该声场重建区域对应的声音信号。

步骤S403：将生成的信号与指定噪声信号进行融合，得到融合有噪声的声音信号，作为该声场重建区域对应的训练声音信号。

其中，指定噪声信号可以但不限定为空调噪声、风扇噪声、电视噪声、稳态噪声、瞬态噪声等等。指定噪声信号可根据指定空间中可能存在的噪声决定。

需要说明的，若应用场景中只需要对一个声场重建区域进行重建，则可按上述方式获得一个声场重建区域对应的训练声音信号，若应用场景中需要对多个声场重建区域进行重建，则可按上述方式获得多个声场重建区域分别对应的训练声音信号。

在获得训练声音信号后，便可利用获得的训练声音信号训练权重预测模型。利用训练声音信号训练权重预测模型的实现方式有多种，请参阅图5，示出了利用训练声音信号训练权重预测模型的一种实现方式的流程示意图，可以包括：

步骤S501：基于训练声音信号和权重预测模型，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在训练声音信号上对应的权重。

本实施例中的权重预测模型为神经网络模型，其可以但不限定为长短时记忆网络（LSTM）、前馈序列记忆网络（FSMN）、卷积神经网络，深度神经网络等中的一种或者几种的融合。

基于训练声音信号和权重预测模型，预测声源信号在每个扬声器上的分配权重的过程与上述“基于目标声音信号和权重预测模型，预测声源信号在每个扬声器上的分配权重”的实现过程类似，本实施例在此不做赘述。

需要说明的是，由于将声源信号直接馈给扬声器，无法还原期望的声源信号，因此，在扬声器播放声源信号之前，需要将声源信号按权重分配到每个扬声器上，而权重预测模型的目标就是要预测声源信号在每个扬声器上的分配权重。

理论上，针对一声场重建区域c，声源信号在每个扬声器上的分配权重可表示为：

(5)

或者

(6)

其中，

表示第

个扬声器播放的信号，

表示第

个扬声器到声场重建区域c 中的第q个麦克风的冲击响应，

、

表示声场重建区域c中的第q个麦克风接收的总信号，

表示多个声源信号中的第m个声源信号，其为声场重建区域c的目标重建信号。

步骤S502：基于每个扬声器在训练声音信号上对应的权重，对训练声音信号对应的声场重建区域进行信号重建，以得到训练声音信号对应的声场重建区域的重建信号。

上述内容提到，一声场重建区域中的一训练声音信号模拟的是该声场重建区域中一麦克风接收的总信号，上式中的

、

代表的即是一声场重建区域中一麦克风接收的总信号，因此，在经由步骤S501获得每个扬声器在训练声音信号上对应的权重后，根据上式(5)或(6)，可将经由步骤S501获得的每个扬声器在训练语音信号上对应的权重与训练语音信号相乘来获得训练声音信号对应的声场重建区域的重建信号。

步骤S503：根据训练声音信号对应的声场重建区域的重建信号以及训练声音信号对应的声场重建区域的目标重建信号确定预测损失，并根据确定出的预测损失对权重预测模型的参数进行更新。

若应用场景中只需要对一个声场重建区域进行重建，相应的，权重预测模型的训练数据包括一个声场重建区域对应的训练声音信号，则基于下式计算预测损失Loss：

(7)

式(7)中的

表示声场重建区域的重建信号，

表示声场重建区域的目标重建信号，NumMic表示重建区域中麦克风的数量。

基于式(7)的预测损失进行参数更新，使得基于最终训练得到的权重预测模型可实现同一声场重建区域的多点还原。

若应用场景中需要对多个声场重建区域进行重建，相应的，权重预测模型的训练数据包括多个声场重建区域分别对应的训练声音信号，则可根据每个声场重建区域的重建信号以及每个声场重建区域的目标重建信号，计算权重预测模型在每个声场重建区域上的预测损失，将权重预测模型在各声场重建区域上的预测损失求和，求和后损失作为最终的预测损失，即最终的预测损失Loss表示为：

(8)

式(8)中的

表示第n个重建区域的重建信号，

表示第n个重建区域的目标重建信号，NumMic 表示第n个重建区域中麦克风的数量。

基于式(8)的预测损失进行参数更新使得，基于最终训练得到的权重预测模型可实现多区域的信号还原，以及同一声场重建区域的多点还原。

按上述的训练方式进行多次迭代训练，直至满足训练结束条件，训练结束后得到的模型即为建立的权重预测模型。

除了上述权重预测模型的训练方式外，还可采用其他的方式训练权重预测模型，比如，首先基于训练声音信号和权重预测模型，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在训练声音信号上对应的预测权重，然后根据每个扬声器在训练声音信号上对应的预测权重，以及每个扬声器在训练声音信号上对应的真实权重确定预测损失，并根据确定出的预测损失对权重预测模型的参数进行更新。按该训练方式进行多次迭代训练，直至满足训练结束条件，训练结束后得到的模型即为建立的权重预测模型。

考虑到实际环境多变，如果只基于上述训练得到的权重预测模型收进行声场重建，无法应对类似人走动、物品移动之类的影响，为此，在使用训练得到的权重预测模型的过程中，可基于指定空间中的声场重建区域设置的麦克风接收的声音信号，对权重预测模型进行优化。

经由本实施例提供的训练方式训练得到的权重预测模型能够根据任一声场重建区域中麦克风接收的声音信号准确预测出声源信号在每个扬声器上的分配权重，进而使得根据预测出的权重将多个声源信号分配给每个扬声器进行播放时，能够精准还原出声场重建区域的目标重建信号。

由于权重由权重预测模型基于声场重建区域中的声音信号预测，这意味着声音信号变化（比如声场重建区域变化）时，权重预测模型预测的权重也会变化，可见，权重预测模型可预测出与声场重建区域相适应的权重，进而使得针对任一目标重建信号，不管在哪个声场重建区域进行重建，经由权重预测模型均能准确预测出权重，进而实现信号的精准重建。

第三实施例

本申请实施例还提供了一种声场重建装置，下面对本申请实施例提供的声场重建装置进行描述，下文描述的声场重建装置与上文描述的声场重建方法可相互对应参照。

请参阅图6，示出了本申请实施例提供的声场重建装置的结构示意图，可以包括：信号获取模块601、权重预测模块602和声场重建模块603。

信号获取模块601，用于获取目标区域中设置的麦克风收集的声音信号作为目标声音信号，其中，所述目标区域为指定空间中的一声场重建区域，所述指定空间中布设有多个扬声器。

权重预测模块602，用于基于所述目标声音信号以及预先建立的权重预测模型，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在所述目标声音信号上对应的权重。

其中，所述权重预测模型采用声场重建区域对应的训练声音信号训练得到，所述权重预测模型的训练目标为，使基于每个扬声器在所述训练声音信号上对应的权重重建出的声音信号趋近于所述训练声音信号对应的声场重建区域的目标重建信号。

声场重建模块603用于基于预测出的权重，将所述声源信号分配给每个扬声器进行播放，以实现所述目标区域的声场重建。

可选的，本申请实施例提供的声场重建装置还可以包括：训练数据获取模块。

所述训练数据获取模块，用于获取每个扬声器到该声场重建区域的冲击响应，根据所述声源信号以及每个扬声器到该声场重建区域的冲击响应，确定该声场重建区域对应的声音信号，作为该声场重建区域对应的训练声音信号。

可选的，所述训练数据获取模块，还用于在生成该声场重建区域对应的声音信号后，将生成的信号与指定噪声信号融合，得到融合有噪声的声音信号，作为该声场重建区域对应的训练声音信号。

可选的，所述训练数据获取模块在获取一扬声器到该声场重建区域的冲击响应时，具体用于：

使用该扬声器播放对数扫频信号；

可选的，权重预测模块602包括：特征获取子模块和权重预测子模块。

所述特征获取子模块，用于对所述目标声音信号中的每一帧提取音频特征，以得到目标声音信号对应的音频特征序列，根据所述目标声音信号对应的音频特征序列，确定所述目标声音信号对应的帧间关系特征，其中，所述帧间关系特征为能够表征所述目标声音信号中帧与帧之间关系的特征；

所述权重预测子模块，用于将所述目标声音信号对应的音频特征序列和所述目标声音信号对应的帧间关系特征输入所述权重预测模型，得到所述声源信号在每个扬声器上的分配权重。

可选的，本申请实施例提供的声场重建装置还可以包括：第一模型训练模块。

所述模型训练模块，用于：

所述模型训练模块在根据所述训练声音信号对应的声场重建区域的重建信号以及所述训练声音信号对应的声场重建区域的目标重建信号确定预测损失，并根据确定出的预测损失对权重预测模型的参数进行更新时，具体用于：

可选的，本申请实施例提供的声场重建装置还可以包括：第二模型训练模块。

所述第二模型训练模块，用于：

可选的，本申请实施例提供的声场重建装置还可以包括：模型优化模块。

所述模型优化模块，用于在建立所述权重预测模型后，基于所述指定空间中的声场重建区域中重建的声音信号，对所述权重预测模型进行优化。

本申请实施例提供的声场重建装置，首先获取目标区域中的目标声音信号，然后基于预先建立的权重预测模型和目标声音信号，预测声源信号在每个扬声器上的分配权重，作为每个扬声器在所述目标声音信号上对应的权重，最后基于预测出的权重将声源信号分配给每个扬声器进行播放，以实现目标区域的声场重建。由于本申请实施例中的权重预测模型采用声场重建区域对应的训练声音信号，以使基于扬声器在训练声音信号上对应的权重重建出的声音信号趋近于训练声音信号对应的声场重建区域的目标重建信号为目标训练得到，因此，权重预测模型具备能够根据任一声场重建区域中的声音信号预测出用于实现该声场重建区域声场重建的权重的能力，即，基于利用权重预测模型和目标区域中的目标声音信号预测出的权重，将多个声源信号分配给每个扬声器进行播放，能够实现目标区域的声场重建，即能够精准还原出目标区域的目标重建信号。

第四实施例

本申请实施例还提供了一种声场重建设备，请参阅图7，示出了该声场重建设备的结构示意图，该声场重建设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704；

在本申请实施例中，处理器701、通信接口702、存储器703、通信总线704的数量为至少一个，且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信；

处理器701可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器703可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory）等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第五实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种声场重建方法，其特征在于，包括：

2.根据权利要求1所述的声场重建方法，其特征在于，获取一声场重建区域对应的训练声音信号包括：

获取每个扬声器到该声场重建区域的冲击响应；

3.根据权利要求2所述的声场重建方法，其特征在于，获取一声场重建区域对应的训练声音信号还包括：

4.根据权利要求2所述的声场重建方法，其特征在于，获取一扬声器到该声场重建区域的冲击响应，包括：

使用该扬声器播放对数扫频信号；

5.根据权利要求1所述的声场重建方法，其特征在于，所述基于所述目标声音信号以及预先建立的权重预测模型，预测声源信号在每个扬声器上的分配权重，包括：

6.根据权利要求1所述的声场重建方法，其特征在于，建立权重预测模型的过程包括：

7.根据权利要求6所述的声场重建方法，其特征在于，所述权重预测模型采用多个声场重建区域分别对应的训练声音信号训练得到；

8.根据权利要求1所述的声场重建方法，其特征在于，建立权重预测模型的过程包括：

9.根据权利要求1~8中任一项所述的声场重建方法，其特征在于，还包括：

10.一种声场重建装置，其特征在于，包括：信号获取模块、权重预测模块和声场重建模块；

11.一种声场重建设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1~9中任一项所述的声场重建方法的各个步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~9中任一项所述的声场重建方法的各个步骤。