CN117253472B

CN117253472B - 一种基于生成式深度神经网络的多区域声场重建控制方法

Info

Publication number: CN117253472B
Application number: CN202311526608.3A
Authority: CN
Inventors: 卫慧慧; 徐晨; 裴国锦; 杨根科; 褚健
Original assignee: Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Current assignee: Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-01-26
Anticipated expiration: 2043-11-16
Also published as: CN117253472A

Abstract

本发明公开了一种基于生成式深度神经网络的多区域声场重建控制方法，涉及多区域声场重建和汽车分区域声场控制领域，包括：步骤1、设置若干个多区域声场重建控制的目标区域，测量得到最终的传递函数矩阵；步骤2、为每个目标区域设置通过扬声器阵列模拟出来的虚拟声源，得到每个目标区域的期望声场；步骤3、设计包括编码器、解码器和隐向量层的生成式深度神经网络，其中，隐向量层位于编码器和解码器之间，通过控制隐向量层得到扬声器阵列的滤波器或者驱动信号；步骤4、将目标区域的期望声场作为输入，对生成式深度神经网络进行训练；步骤5、使用生成式深度神经网络生成扬声器阵列的滤波器或驱动信号。

Description

一种基于生成式深度神经网络的多区域声场重建控制方法

技术领域

本发明涉及多区域声场重建和汽车分区域声场控制领域，尤其涉及一种基于生成式深度神经网络的多区域声场重建控制方法。

背景技术

在共享的空间内，不同的听者常需要不同的节目源，而不同节目源的相互串扰会显著影响听音体验，比如，在车内主驾驶位置通常需要听导航的声音，而其他座位的听众可能需要听歌曲、相声、有声书等娱乐性声音。个人声场多区域控制（Personal Sound ZoneControl，PSZC）是解决这一问题的有效途径，其主要手段是设计一个用于扬声器阵列的数字滤波器，来优化扬声器阵列的激励信号，使阵列将不同节目源投影到声场不同区域。特定节目源对应的重放区域是亮区（听音区），而其余区域对应于此节目源都是暗区（静音区）。阵列优化的目标是使特定节目源在亮区的声重放性能符合预期，同时尽量减少对暗区的声辐射功率。

现有的PSZC技术主要分为声学对比控制（Acoustic Contrast Control，ACC）、压力匹配（Pressure matching，PM）、加权压力匹配（Weight Pressure Matching，WPM）。其中，ACC法试图在亮区最大化声能，在暗区衰减声能，通过最大化两个区域的声学对比度来设计扬声器阵列的滤波器。基于这一原理，提出了不同形式的ACC，包括平均声能比、最大声能差等。这种对比控制方法与各个目标区域声场重建的误差无关，对声场相位没有约束，因此无法控制亮区重建的声场的空间方向。PM法主要是基于重建声场与期望声场的误差最小化，并采用最小二乘法减小声压误差，以获得扬声器阵列的滤波器。然而，它忽略了区域间的声学对比，在阵列工作中声能对比度表现不佳。PM法和ACC法都只关注某一指标，是一种比较极端的方法，因此在一个指标上表现得特别好，而在其他指标上表现得很差。WPM是ACC法和PM法的结合，通过调整权因子得到扬声器的驱动函数，在声场重建误差和声能对比度之间进行权衡，加权因子在0和1之间。

新的技术方案主要是基于上述三种技术原理进行研究和改进，例如，在时域、子带域、模态域进行阵列的滤波器设计，或者引入一些正则化方法，如L-曲线，tikhonov正则化等，以增强控制的鲁棒性。

马琮淦等人在中国发明专利申请“一种用于车内声场分区域的主动控制方法”（申请号为CN202210691382.1）中根据听音需求，确定明区和暗区；布置待选扬声器阵列；设置明区控制点、暗区控制点；采用单频信号响应法，获得待选扬声器阵列到明区和暗区控制点的传递函数矩阵；利用遗传算法选择扬声器阵列的最优扬声器数量和位置；利用双重迭代法确定最优控制模型参数值（即亮区，暗区权重）并用于生成实际扬声器阵列的频域驱动信号；通过快速傅里叶逆变换将频域驱动信号转换为时域驱动信号；输入到实际扬声器阵列中，驱动扬声器产生期望的声场。该方法本质上是声压匹配法（PM），使用一种迭代求解的方法，即双重迭代法解决这个优化问题。双重迭代法可能受到初始猜测值的选择和收敛性的影响，需要进行适当的调整和验证。同时，传递函数矩阵是预先测量好的，但是车内的声学混响通常较大，因为车内空间较小且由硬表面构成，这些硬表面会反射声音，导致声音在车内产生多次反射和干涉，从而增加混响效应，并且车内的驾驶员和乘客的活动、移动，也会导致声学传递函数的变化。

赵翔宇等人在中国发明专利申请“车内声学系统的音频控制方法、装置、存储介质及设备” （申请号为CN202211470705.0）中根据音频控制指令确定车内声场空间的明区与暗区；根据明区与暗区，确定明区对应的第一控制信号与暗区对应的第二控制信号；控制明区对应的扬声器根据第一控制信号进行音频播放，以及控制暗区对应的扬声器根据第二控制信号进行音频抑制，以在明区与暗区分别播放不同的音频内容，和/或在明区与暗区分别播放不同的音频音量，达到个性化的空间声场的效果。该方法是加权声压匹配法（WPM），用优化算法求解，存在局部最优解的情况。

李辉等人在中国发明专利申请“一种车内声场分区调控方法、系统及车辆”（申请号为CN202310428487.2）中根据需要播放声音A(t)得到车内扬声器系统的时域驱动信号；将需要播放声音A(t)作为主动控制的参考信号，将实时采集的车内各声场区域的车内声信号作为主动控制的误差信号；根据误差信号和参考信号生成扬声器系统的时域补偿信号；最后将扬声器系统的时域驱动信号与时域补偿信号进行信号叠加，加载给各个扬声器发声，在需要播放声音的明区生成期望的声音，在不需要播放声音的暗区生成零信号。该方法是一种声能对比度（ACC）算法，存在矩阵求逆的问题。虽然结合主动控制的方法，但是，没有明确说明主动控制的详细控制策略。而且，在车内四个乘客区域布置声传感器并不能真的测量四个乘客区域的声音信号，只能测量到区域的部分点，并不能完全表征区域信号，这样的主动控制，可能导致测量点的效果很好，但是听音区域的其他点的效果下降。

上述方法都是在信号处理的领域进行改进，没有利用深度学习的方法，存在以下技术问题：

问题1：声对比度和重建误差是相互制衡的一对指标，声对比度提高，重建误差肯定也会变大，反之，亦然。尽管研究者们进行了各种优化求解，但是还是受到求解过程的限制，无法做到完全的分区控制。

问题2：这些方法均存在传递函数矩阵的测量问题。传递函数矩阵的测量会影响分区的性能。传递函数矩阵依赖测量点的位置、个数以及扬声器单元的位置和个数。如果车内环境发生变化，例如，乘坐人员位置移动、乘坐人员的衣物和身高等，都会影响传递函数的测量。而传递函数的测量是一个耗时耗力的人工过程，即使测量了大量的传递函数也无法覆盖所有的可能状况。

问题3: 这些方法均存在传递函数矩阵的求逆问题。矩阵求逆过程中，可能存在矩阵奇异、矩阵没办法求逆、矩阵求逆数值不稳定的情况。

因此，本领域的技术人员致力于开发一种新的多区域声场重建控制方法，借助深度学习来解决现有技术中存在的上述问题。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何利用深度学习的方法来优化传递函数矩阵的测量、避免矩阵求逆并克服声对比度和重建误差之间的矛盾。

为实现上述目的，本发明提供了一种基于生成式深度神经网络的多区域声场重建控制方法，所述方法包括以下步骤：

步骤1、设置若干个多区域声场重建控制的目标区域，所述每个目标区域使用麦克风阵列，所述麦克风阵列最少包含一个麦克风；测量所述每个目标区域的传递函数矩阵，并通过插值和仿真操作来增加所述传递函数矩阵的数量，得到最终的所述传递函数矩阵；

步骤2、为所述每个目标区域设置通过扬声器阵列模拟出来的虚拟声源，并根据所述每个目标区域和所述虚拟声源的位置关系，得到所述每个目标区域的期望声场；

步骤3、设计包括编码器、解码器和隐向量层的生成式深度神经网络，其中，所述隐向量层位于所述编码器和所述解码器之间，通过控制所述隐向量层得到所述扬声器阵列的滤波器或者驱动信号，所述隐向量层也被称为滤波器层；所述编码器和所述解码器包括若干不同类型的神经网络层，所述神经网络层可以为全连接层、卷积层和池化层；

步骤4、将所述目标区域的所述期望声场作为输入，对所述生成式深度神经网络进行训练，得到网络估计的声场，即重建的声场数据，通过比较所述重建的声场数据和所述期望声场的数据之间的差异来计算损失函数，并根据所述损失函数的计算结果，使用反向传播算法更新所述生成式深度神经网络的参数，再经过若干轮的迭代训练，最后所述生成式深度神经网络收敛，完成训练；

步骤5、使用所述生成式深度神经网络生成所述扬声器阵列的所述滤波器或所述驱动信号。

进一步地，所述步骤1包括以下子步骤：

步骤1.1、设置若干个多区域声场重建控制的所述目标区域，所述目标区域的数量大于等于1；

步骤1.2、通过在所述每个目标区域中设置麦克风阵列来对所述每个目标区域进行空间采样，所述麦克风阵列至少包含一个麦克风，接收所述扬声器阵列中每一个阵元依次发出的扫频信号，得到所述每个目标区域的所述传递函数矩阵；

步骤1.3、通过插值和仿真操作来增加所述传递函数矩阵的数量，得到最终的所述传递函数矩阵。

进一步地，所述步骤1.2中测量所述传递函数矩阵包括以下子步骤：

步骤1.2.1、所述扬声器阵列发送一段频率连续变化的所述扫频信号，记为发送信号，所述发送信号的频率范围可根据实际需要进行选择；

步骤1.2.2、所述麦克风阵列接收所述发送信号，接收到的所述发送信号包含所述发送信号在传递过程中受到的影响，记为接收信号；

步骤1.2.3、对所述接收信号进行频域分析，得到在不同频率下的幅度和相位信息；

步骤1.2.4、将所述发送信号和所述接收信号的频域表示进行比较，得到所述每个目标区域的所述传递函数矩阵。

进一步地，所述步骤2包括以下子步骤：

步骤2.1、为所述每个目标区域设置通过所述扬声器阵列模拟出来的所述虚拟声源；

步骤2.2、所述每个目标区域包含若干个不同的所述虚拟声源的位置；

步骤2.3、根据所述每个目标区域和所述虚拟声源的位置关系，同时约束所述目标区域之间的声对比度ACC，计算得到所述每个目标区域的所述期望声场，并记为，所述期望声场组成训练数据集；

步骤2.4、对所述训练数据集进行预处理，使得所有的所述目标区域的所述期望声场能够同时出现；

步骤2.5、为所述每个目标区域训练不同的深度神经网络模型。

进一步地，在所述步骤2.5中，也可以为所述训练数据集训练一个比较大的模型。

进一步地，所述步骤2.4需要考虑出现的不同情况：

a)只有一个所述目标区域，则所述训练数据集中的其他所述目标区域的所述期望声场被设置成零或者一个在听觉阈值以下的数值；

b)有两个所述目标区域，则所述训练数据集中的其他所述目标区域的所述期望声场被设置成零或者一个在听觉阈值以下的数值；

c)依次类推，直到所有的所述目标区域的所述期望声场能够同时出现。

进一步地，在所述步骤3中：

所述编码器以所述目标区域的所述期望声场作为输入，学习所述期望声场的空间特征和隐向量，其中，学习得到的所述隐向量位于所述隐向量层中；

所述解码器包括神经网络解码器和声学前向传播模型，其中，所述神经网络解码器将所述编码器的输出解码成所述网络估计的声场，所述声学前向传播模型根据所述传递函数矩阵计算得到声学模型计算的声场/>；

计算所述期望声场与所述声学模型计算的声场/>的误差/>，计算所述期望声场/>与所述网络估计的声场/>的误差/>，将/>和/>进行加权，得到加权；

将通过所述生成式深度神经网络的训练得到所述隐向量将作为所述扬声器阵列的所述滤波器或者所述驱动信号。

进一步地，所述步骤4包括以下子步骤：

步骤4.1、将所述目标区域的所述期望声场输入到所述编码器中，通过所述编码器得到所述隐向量，再将所述隐向量输入到所述解码器中，通过所述解码器得到所述重建的声场数据；

步骤4.2、比较所述重建的声场数据和原始输入的所述期望声场之间的差异，计算所述损失函数；

步骤4.3、根据所述损失函数的结果，计算梯度，并使用所述反向传播算法更新所述生成式深度神经网络的参数；

步骤4.4、重复所述步骤4.1~步骤4.3，直到达到预设的训练轮数或达到停止条件；

步骤4.5、对训练得到的所述生成式深度神经网络的性能进行评估，如果不满足要求，可以调整网络结构、调整超参数或增加训练数据来改进模型。

进一步地，所述步骤4.2中计算所述损失函数的方法包括均方误差、平均绝对误差或Huber损失函数。

进一步地，所述步骤4.3中的所述反向传播算法包括梯度下降法、Adam。

本发明提供的一种基于生成式深度神经网络的多区域声场重建控制方法至少具有以下技术效果：

1、本发明提供的技术方案借助深度学习强大的学习能力，通过测量的车内传递函数和仿真的传递函数以及虚拟声源，获得大量的多目标区域的期望声场的数据，通过声场数据进行训练，采用生成式深度神经网络，自动学习和提取声场特征，对复杂的声场进行更好的建模和表示，从而获得扬声器阵列的滤波器或者驱动信号；

2、本发明提供的深度学习模型具有很强的泛化能力，能够考虑到传递函数的变化特性，避免传递函数变化或者测量误差导致的性能下降，从而提高多区域声场的性能；

3、本发明提供的技术方案在训练过程中考虑不同的虚拟声源位置，能够在实现多区域声场控制的同时满足虚拟声的需求，在同一个声学环境下，使得听众感受到不同的听音位置；

4、本发明提供的技术方案避免传递函数矩阵的显式求逆，从而避免矩阵求逆的各种问题，提高多区域声场的性能；

5、本发明提供的技术方案结合声学传播模型和生成式深度学习模型，使得本发明的生成式神经网络模型从期望的声场直接生成扬声器阵列的滤波器或者驱动信号，从而增加模型的可用性和可解释性。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的多区域声场重建控制方法的声学原理模型图；

图2是图1所示实施例的扬声器阵列驱动信号生成图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

为解决现有技术中存在的需要优化传递函数矩阵的测量、避免矩阵求逆并克服声对比度和重建误差之间的矛盾的问题，本发明实施例借助深度学习的强大的学习能力，通过测量的车内传递函数和仿真的传递函数，能够获得大量的多目标区域的期望声场的数据，通过这些声场数据进行训练，自动学习和提取声场特征，对复杂的声场进行更好的建模和表示，从而获得扬声器阵列的滤波器或者驱动信号。而且深度学习模型具有很强的泛化能力，能够考虑到传递函数的变化特性，避免传递函数变化或者测量误差导致的性能下降，从而提高多区域声场的性能，也避免传递函数矩阵的显式求逆，从而规避矩阵求逆中出现的各种问题，提高多区域声场的性能。不同于其他的数据集都是有标签的语音深度学习任务，如语音识别、说话人识别等，车内多区域的声场重建任务，由于无法预先知道扬声器阵列的驱动信号，因而无法直接利用有监督的深度学习进行训练。本发明实施例结合声学传播模型和自编码器模型，使得生成式神经网络模型可以从期望的声场直接生成扬声器阵列的滤波器或者驱动信号，从而增强模型的可用性和可解释性。

实施例1

本发明实施例提供了一种基于生成式深度神经网络的多区域声场重建控制方法，采用生成式深度神经网络生成扬声器阵列的驱动信号，实现多区域声场控制。

该方法包括以下步骤：

步骤1、设置若干个多区域声场重建控制的目标区域，每个目标区域使用麦克风阵列，麦克风阵列最少包含一个麦克风；测量每个目标区域的传递函数矩阵，并通过插值和仿真操作来增加传递函数矩阵的数量，得到最终的传递函数矩阵；

步骤2、为每个目标区域设置通过扬声器阵列模拟出来的虚拟声源，并根据每个目标区域和虚拟声源的位置关系，得到每个目标区域的期望声场；

步骤3、设计包括编码器、解码器和隐向量层的生成式深度神经网络，其中，隐向量层位于编码器和解码器之间，通过控制隐向量层得到扬声器阵列的滤波器或者驱动信号，隐向量层也被称为滤波器层；编码器和解码器包括若干不同类型的神经网络层，神经网络层可以为全连接层、卷积层和池化层；

步骤4、将目标区域的期望声场作为输入，对生成式深度神经网络进行训练，得到网络估计的声场，即重建的声场数据，通过比较重建的声场数据和期望声场的数据之间的差异来计算损失函数，并根据损失函数的计算结果，使用反向传播算法更新生成式深度神经网络的参数，再经过若干轮的迭代训练，最后生成式深度神经网络收敛，完成训练；

步骤5、使用生成式深度神经网络生成扬声器阵列的滤波器或驱动信号。

特别地，步骤1包括以下子步骤：

步骤1.1、设置若干个多区域声场重建控制的目标区域，目标区域的数量大于等于1；如果是车内声场，通常分为主驾驶位、副驾驶位、左后位、右后位4个听音区域。

步骤1.2、通过在每个目标区域中设置麦克风阵列来对每个目标区域进行空间采样，麦克风阵列接收扬声器阵列中每一个阵元依次发出的扫频信号，得到每个目标区域的传递函数矩阵；其中，麦克风阵列的数目就是目标区域的测量点个数。扫频信号的测声学传递函数的原理是基于频域分析的方法，其基本思想是通过发送一段频率连续变化的扫频信号，然后测量信号在传递过程中的响应，从而得到声学传递函数。如图1所示，为单/双通道信号经过滤波器后，反馈给扬声器阵列后，经过空气传播，到达目标区域。

步骤1.3、通过插值和仿真操作来增加传递函数矩阵的数量，得到最终的传递函数矩阵。由于麦克风阵列相当于对目标区域进行空间采样，没有办法获得整个目标区域的每一个位置，移动麦克风阵列进行测量，耗时耗力。采用插值的方式可以获得更多的传递函数矩阵。此外，通过一些仿真的方式，如镜像声源法，声线法等，仿真包含不同的混响时间、吸声系数，目标区域的测量位置等，以增加传递函数矩阵的多样性和数量，使得其能覆盖多种声学场景，从而使得最终训练得到的神经网络具有很好的泛化性和鲁棒性。

特别地，最终的传递函数矩阵数据包括测量的传递函数矩阵、插值得到的传递函数矩阵和仿真得到的传递函数矩阵。

实施例2

在实施例1的基础上，步骤1.2中测量传递函数矩阵包括以下子步骤：

步骤1.2.1、扬声器阵列发送一段频率连续变化的扫频信号，记为发送信号，发送信号的频率范围可根据实际需要进行选择，通常是整个系统的数字采样频率，如20Hz-（16KHz/44.1KHz/48KHz）等等。

步骤1.2.2、麦克风阵列接收发送信号，接收到的发送信号包含发送信号在传递过程中受到的影响，记为接收信号；发送信号在传递过程中受到的影响包括反射、衰减等。

步骤1.2.3、对接收信号进行频域分析，得到在不同频率下的幅度和相位信息；频域分析方法可以是使用傅里叶变换或其他频域分析方法。

步骤1.2.4、将发送信号和接收信号的频域表示进行比较，得到每个目标区域的传递函数矩阵。传递函数描述信号在传递过程中的衰减和相位变化情况，用于后续的多区域声场重建的建模和处理。

通过以上步骤，可以得到声学传递函数的表示矩阵，从而可以了解不同区域的声场空间的特性，如频率响应、相位响应等。

实施例3

在实施例1和2的基础上，步骤2包括以下子步骤：

步骤2.1、为每个目标区域设置通过扬声器阵列模拟出来的虚拟声源；虚拟声源使得听者有一种声音来源于特定位置的感觉。虚拟声源可以在任意位置产生声音，而实际上并不存在物理的声源；

步骤2.2、每个目标区域包含若干个不同的虚拟声源的位置，以满足每个区域的虚拟声场的要求；

步骤2.3、根据每个目标区域和虚拟声源的位置关系，同时约束目标区域之间的声对比度ACC，计算得到每个目标区域的期望声场，并记为，期望声场组成训练数据集；

步骤2.4、对训练数据集进行预处理，使得所有的目标区域的期望声场能够同时出现；由于并不是所有的目标区域都会同时出现，因而需要对训练数据集进行预处理。在实际使用阶段，可以通过与用户的交互或者检测用户数目的方式，得到目标听众的个数。而在训练阶段我们需要考虑到可能出现的各种情况。

步骤2.5、在具体的实现过程中，针对上面的数据集情况，可以为每个目标区域训练不同的神经网络，以满足每个目标区域的不同情况，也可以为训练数据集训练一个比较大的模型以覆盖所有的情况，并保持好的性能。这取决于硬件设计和性能。

特别地，步骤2.4需要考虑出现的不同情况：

a)只有一个目标区域，则训练数据集中的其他目标区域的期望声场被设置成零或者一个在听觉阈值以下的数值；注意，在训练数据集中，每个目标区域的数据都要进行同样的处理，且数据规模相同。

b)有两个目标区域，则训练数据集中的其他目标区域的期望声场被设置成零或者一个在听觉阈值以下的数值；这两个目标区域也需要满足听众位置的多样性。比如，在汽车中，主驾驶位和副驾驶位为目标区域，或者主驾驶位和左后/右后位为目标区域。

c)依次类推，直到所有的目标区域的期望声场能够同时出现。

实施例4

在实施例1~3的基础上，生成式网络-自编码器（Generative Network -Autoencoder），即生成式深度神经网络，是一种无监督学习的神经网络模型，用于学习数据的低维表示和重构数据。生成式深度神经网络包括编码器、解码器和隐向量层，其中，隐向量层位于编码器和解码器之间，通过控制隐向量层得到扬声器阵列的滤波器或者驱动信号，隐向量层也被称为滤波器层；

编码器和解码器可以是全连接层、卷积层、池化层等不同类型的神经网络层组成。编码器和解码器的层数和神经元数量可以根据数据的复杂性和任务的要求进行调整，如图2所示。

通常，生成式神经网络的目标是通过学习输入数据的分布来生成与训练数据相似的新样本。但是在多区域声场重建问题中，训练目标是生成扬声器阵列的滤波器或者驱动信号，而不是新的声场样本。

具体地，在步骤3中：

编码器以目标区域的期望声场作为输入，学习期望声场的空间特征，并经过多层卷积神经网络学习到声场的隐向量，其中，隐向量位于隐向量层中，并将隐向量表征为扬声器阵列的滤波器或者驱动信号。

解码器分为两个部分，包括神经网络解码器和声学前向传播模型，其中，神经网络解码器基于多个卷积层或、全连接层，将编码器的输出解码成网络估计的声场，其结构通常与编码器相似，但是层数和神经元数量可能不同，而声学前向传播模型根据传递函数矩阵计算得到声学模型计算的声场/>；

解码器部分的两个输出是与原始输入的声场数据尽可能接近的重建的声场数据，分别计算两个输出与输入的目标区域的期望声压场的误差，作为损失函数。具体地，计算期望声场与声学模型计算的声场/>的误差/>，计算期望声场/>与网络估计的声场/>的误差/>，再将/>和/>进行加权，得到加权/>，其中权重系数可以调节。误差反向传播更新网络参数，经过迭代训练，最后网络收敛。

通过训练，得到稳定的隐向量，能够作为扬声器阵列的滤波器或者驱动信号。

除了基本的自编码器结构，还有许多变体，如卷积自编码器、变分自编码器、U-net、生成对抗网络（GAN）等生成式网络，都可以用来进行多区域声场重建的训练。

实施例5

在实施例1~4的基础上，以目标区域的期望压力场作为输入，学习期望的压力场的统计分布，并引入了一些先验物理知识，利用声学前向传播过程，来计算估计的目标区域的声场信号。损失函数是基于期望声压场和估计的目标区域的声场之间的误差。误差反向传播更新网络参数，经过迭代训练，最后网络收敛。

使用准备好的数据集，对生成式自编码器进行训练。具体地，步骤4包括以下子步骤：

步骤4.1、前向传播：将目标区域的期望声场输入到编码器中，通过编码器得到隐向量，再将隐向量输入到解码器中，通过解码器得到重建的声场数据；

步骤4.2、计算损失：比较重建的声场数据和原始输入的期望声场之间的差异，计算损失函数；常用的计算损失函数的方法包括均方误差MSE、平均绝对误差MAE或Huber损失函数。

均方误差（Mean Squared Error，MSE）损失函数：MSE是最常用的回归任务损失函数之一。它计算重建的声场数据与原始的期望的数据之间的平均平方误差，即预测值与真实值之间的差异的平方。MSE损失函数可以通过最小化预测值与真实值之间的差异来训练生成式自编码器。

平均绝对误差（Mean Absolute Error，MAE）损失函数：MAE是另一种常用的回归任务损失函数。它计算重建的声场数据与原始的期望的数据之间的平均绝对误差，即预测值与真实值之间的差异的绝对值的平均值。MAE损失函数可以通过最小化预测值与真实值之间的差异来训练生成式自编码器。

Huber损失函数：Huber损失函数是一种平衡了MSE和MAE的损失函数。它在预测值与真实值之间的差异较小时，采用MSE损失函数；在差异较大时，采用MAE损失函数。Huber损失函数可以通过最小化预测值与真实值之间的差异来训练生成式自编码器。

步骤4.3、反向传播：根据损失函数的结果，计算梯度，并使用反向传播算法更新生成式深度神经网络的参数；常用的反向传播优化算法包括梯度下降法、Adam。

步骤4.4、重复步骤4.1~步骤4.3中的前向传播、计算损失和反向传播，直到达到预设的训练轮数或达到停止条件；

步骤4.5、模型评估和调优：训练完成后，需要对生成式自编码器进行评估和调优。评估可以使用各种指标，如重建误差、均方根误差（RMSE）等。如果不满足要求，可以调整网络结构、调整超参数或增加训练数据来改进模型。

在步骤5使用生成式深度神经网络进行多区域声场重建控制，即模型的使用阶段，根据实际使用情况，通过智能面板或者语音识别与用户进行交互，智能检测使用情况下的目标区域的个数，以及目标区域的位置，使用训练好的模型的编码器部分生成扬声器阵列的滤波器。根据不同目标区域的用户选定的节目源，与生成的扬声器阵列的滤波器进行卷积，得到扬声器阵列的播放信号。最终这个播放信号通过声学前向传播原理，在空气中进行传播，形成各个目标区域的声音。使用训练好的模型的编码器部分生成扬声器阵列的滤波器后，也可以使用模型的解码器部分对多区域声场的效果进行仿真验证，提高工作效率。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，所述方法包括以下步骤：

步骤1、设置若干个多区域声场重建控制的目标区域，所述每个目标区域使用麦克风阵列，所述麦克风阵列最少包含一个麦克风；测量所述每个目标区域的传递函数矩阵，并通过插值和仿真操作来增加所述每个目标区域的传递函数矩阵的数量，得到最终的所述每个目标区域的传递函数矩阵；

步骤2、为所述每个目标区域设置通过扬声器阵列模拟出来的虚拟声源，并根据所述每个目标区域和所述虚拟声源的位置关系，得到所述每个目标区域中的期望声场；

步骤3、设计包括编码器、解码器和隐向量层的生成式深度神经网络，其中，所述隐向量层位于所述编码器和所述解码器之间，通过控制所述隐向量层得到所述扬声器阵列的滤波器或者驱动信号；所述编码器和所述解码器包括若干不同类型的神经网络层，所述神经网络层可以为全连接层、卷积层和池化层；

步骤4、将所述每个目标区域中的期望声场作为输入，对所述生成式深度神经网络进行训练，得到重建的声场数据，通过比较所述重建的声场数据和所述每个目标区域中的期望声场的数据之间的差异来计算损失函数，并根据所述损失函数的计算结果，使用反向传播算法更新所述生成式深度神经网络的参数，再经过若干轮的迭代训练，最后所述生成式深度神经网络收敛，完成训练；

2.如权利要求1所述的基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，所述步骤1包括以下子步骤：

步骤1.2、通过在所述每个目标区域中设置麦克风阵列来对所述每个目标区域进行空间采样，所述麦克风阵列至少包含一个麦克风，接收所述扬声器阵列中每一个阵元依次发出的扫频信号，得到所述每个目标区域的传递函数矩阵；

步骤1.3、通过插值和仿真操作来增加所述每个目标区域的传递函数矩阵的数量，得到最终的所述每个目标区域的传递函数矩阵。

3.如权利要求2所述的基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，所述步骤1.2中包括以下子步骤：

步骤1.2.4、将所述发送信号和所述接收信号的频域表示进行比较，得到所述每个目标区域的传递函数矩阵。

4.如权利要求1所述的基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，所述步骤2包括以下子步骤：

步骤2.3、根据所述每个目标区域和所述虚拟声源的位置关系，同时约束所述目标区域之间的声对比度ACC，计算得到所述每个目标区域中的期望声场，并记为，所述每个目标区域中的期望声场组成训练数据集；

步骤2.4、对所述训练数据集进行预处理，使得所述每个目标区域中的期望声场能够同时出现；

5.如权利要求4所述的基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，在所述步骤2.5中，为所述训练数据集训练一个大模型。

6.如权利要求4所述的基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，所述步骤2.4需要考虑出现的不同情况：

a)只出现一个所述目标区域的期望声场，则所述训练数据集中的其他未出现的所述目标区域的所述期望声场被设置成零或者一个在听觉阈值以下的数值；

b)出现有两个所述目标区域的期望声场，则所述训练数据集中的其他未出现的所述目标区域的所述期望声场被设置成零或者一个在听觉阈值以下的数值；

c)依次类推，直到所述每个目标区域中的期望声场能够同时出现。

7.如权利要求1所述的基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，在所述步骤3中：

所述编码器以所述目标区域中的期望声场作为输入，学习所述目标区域中的期望声场的空间特征和隐向量，其中，学习得到的所述隐向量位于所述隐向量层中；

所述解码器包括神经网络解码器和声学前向传播模型，其中，所述神经网络解码器将所述编码器的输出解码成所述重建的声场数据，所述声学前向传播模型根据所述每个目标区域的传递函数矩阵计算得到声学模型计算的声场/>；

计算所述目标区域中的期望声场与所述声学模型计算的声场/>的误差/>，计算所述目标区域中的期望声场/>与所述重建的声场数据/>的误差/>，将/>和进行加权，得到加权/>；

8.如权利要求1所述的基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，所述步骤4包括以下子步骤：

步骤4.1、将所述每个目标区域的期望声场输入到所述编码器中，通过所述编码器得到所述隐向量，再将所述隐向量输入到所述解码器中，通过所述解码器得到所述重建的声场数据；

步骤4.2、比较所述重建的声场数据和所述每个目标区域的期望声场之间的差异，计算所述损失函数；

步骤4.5、对训练得到的所述生成式深度神经网络的性能进行评估，如果不满足要求，通过调整网络结构、调整超参数或增加训练数据来改进模型。

9.如权利要求8所述的基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，所述步骤4.2中计算所述损失函数的方法包括均方误差、平均绝对误差或Huber损失函数。

10.如权利要求8所述的基于生成式深度神经网络的多区域声场重建控制方法，其特征在于，所述步骤4.3中的所述反向传播算法包括梯度下降法或Adam。