CN107791970B

CN107791970B - 基于启发式动态规划的汽车主动降噪方法

Info

Publication number: CN107791970B
Application number: CN201710965719.2A
Authority: CN
Inventors: 李慧; 韩金历; 张硕; 骆万博; 顾明; 丁逢; 马浩博; 孙文杰
Original assignee: Changchun University of Technology
Current assignee: Jilin Taiyu Technology Manufacturing Co.,Ltd.
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2019-06-04
Anticipated expiration: 2037-10-17
Also published as: CN107791970A

Abstract

基于启发式动态规划的汽车主动降噪方法属于汽车室内噪声的主动降噪方法领域，该方法首创性地在云服务器的虚拟环境中对噪声信息的海量大数据库中的数据进行拟合，通过启发式动态规划训练出的模型网络和执行网络来寻找数据库中噪声频谱特性的规律，将频谱特性相似的噪声数据拟合到一起，建立从庞大的数据库中缩减生成数据量较少的离线专家库，实现噪声数据的最优化，为系统提供最优的控制量，该创新方式使得本方法得以克服现有的汽车主动降噪方法需要对海量数据逐一实时运算的弊端，经过实际测试，该方法完全可以满足真实路况下实际行驶的汽车降噪需求，因此具有较大的市场前景和潜在的经济价值。

Description

基于启发式动态规划的汽车主动降噪方法

技术领域

本发明属于汽车室内噪声的主动降噪方法领域，具体涉及一种基于启发式动态规划的汽车主动降噪方法。

背景技术

主动降噪技术由于其能有效地降低低频噪声的特点，受到了人们的重视，在降低低频噪声中逐渐被应用。主动降噪原理是通过对噪声源信号的识别分析后，再通过能够产生人造消音噪声的电声系统产生一个与该噪声源信号振幅及频率均相同、方向相反的人造降噪消音信号，从而用该人造降噪消音信号与噪声源信号叠加，实现源噪声的抵消。

声音在空气中的传播符合开普勒效应和声波的衰减特性，其振幅随传播距离的增加而规律性衰减、周期逐渐拉长，但频率仍保持不变。因此，若将从声源发出的声音信号作为已知的失量，则其沿向量方向传播时，相位和幅值随距离增加的衰减特性是完全可以预测和已知的。故而，当人造降噪消音信号与噪声源信号叠加时，最佳的降噪抵消区域可以通过在其两个声源连线上的位置由人造降噪消音信号的初始特性而进行微调和人为控制。当且仅当二者幅值相同且相位相差180度时，最佳消音区将位于两个声源的连线中点；而在保持其它条件不变，仅将人造降噪消音信号的幅值刻意增大的情况下，最佳消音区则将偏向噪声源信号所在的一侧；同样，在保持其它条件不变，单纯将人造降噪消音信号的相位前移的情况下，最佳消音区则也将偏向噪声源信号所在的一侧。由此，当噪声源信号的矢量信息完全已知时，则可以通过对人造降噪消音信号的矢量信息提前进行预设改造，从而有意识地控制最佳降噪抵消区域发生的具体位置和范围。

上述获取噪声信号矢量信息、人为制造给定的降噪消音信号以及根据声音矢量信息来控制最佳降噪抵消区域发生的具体位置和范围的技术均是非常成熟的现有公知技术，已较为广泛地应用于工厂车间等噪声种类少、噪声类型切换不频繁的固定空间降噪场合，并在汽车室内降噪领域也获得一定的应用。例如，文献1【赛吉尔呼.基于智能算法的汽车主动降噪系统研究与设计[D].东华大学,2015】，以及，文献2【陈道炯,马瑞,单世宝,等.车内多通道自适应主动降噪的研究[J].汽车工程，2007,29(4):300—303.】，这两篇公开文献均提出了基于多通道自适应滤波器的有源前反馈车内主动降噪处理方案，尤其后者，还特别提出了利用自适应离线算法建立次级声通道模型并建立了硬件实验系统，其二者均属于利用较为成熟自适应滤波器的技术实现主动降噪。其主动降噪的原理是基于自适应滤波器来产生新的降噪声源信号，对于不同频率的噪声做出针对性的处理，将噪声信号通过滤波器分解为多个频率通道，再对每一个频率通道中的单一谐波信号单独制造其降噪声源信号，从而去抵消该通道对应的原有噪声谐波。然而，现有自适应滤波器是数字电路，其各通道的降噪处理均需要通过DSP等微处理器进行计算，结合模数转换芯片、数模转换芯片，对音频信号进行反相运算、振幅调整、移相等处理，并最终自动寻找最佳的相位角匹配参数。该传统降噪方法优点是容易实现、成本低、对于低频噪声处理特性好，在降噪的同时可以保证语言信号的传输，能实现较大空间内的噪声控制。

然而，前述两篇引用论文以及其它现有的汽车主动降噪技术，均仅仅是针对汽车理论模型以及通常以驾驶员为代表的一个座椅或者车室内的空间几何中心点位置所提出的降噪方案，由于其理论模拟和座椅位置少，故而所需运算的人造降噪消音信号数据量非常小，因此其基于数字电路的自适应滤波器的运算处理能力尚且可以勉强满足信号实时性的最基本需求。但当五人座椅的车辆行驶于真实路况时，情况则将大为不同，由于汽车在行驶途中，其室内的噪声来源多样，其多音源的噪声或频率更高的噪声信号所携带的噪声信息量过于庞大和复杂，受限于汽车噪声种类的快速变化、路况复杂等因素，致使现有基于自适应滤波器的主动降噪的方法无法及时完成针对五人或更多座椅空间的整体降噪方案的及时计算，其降噪所需的数据处理能力超出了自适应滤波器的运算收敛速度及其微芯片算法的数据处理能力上限，这将导致该基于自适应滤波器的主动降噪方法无法处理复杂的多音源的噪声，进而造成产生新的降噪声源信号发生时效迟滞、叠加后的新的降噪声源信号与噪声源的相位角无法匹配，因此无法发挥消声降噪的应有作用。受制于上述因素影响，现有基于自适应滤波器的主动降噪的方法通常仅应用于车间厂房等噪声变化不频繁，声源较为单一的固定场合，而面向汽车降噪等多噪音源、更高频率的噪声环境时，以引述论文所代表的基于自适应滤波器的传统降噪方法在实际应用中的真实降噪效果并不理想。

此外，车辆室内的噪声频谱特征主要由汽车运动部件噪声、汽车自身车型特征和车辆行驶状态决定，对于某一给定车型的车辆，结构特征决定其生源振动的固有频率，而车辆在匀速行进、加速行进、制动减速等不同的行驶状态下，也会对应不同的噪声频谱特征，此外，行驶路面的差异以及外部环境的噪声也对车内噪声的频谱特征有一定的干扰。由于噪声源的种类不同，车辆室内噪声的类型较多、噪声频谱特征切换频发，变化较快。由于以频率、幅值和相位角三个要素为表征的声音频谱特性可以对应地反应声音的音调、声强和音色等信息，因此，声音的频谱特征可以用来对声源的特性进行分类定性，并用来建立对应分类映射关系。例如，对应于干燥颠簸的砂石路面或湿滑的泥泞路面抑或冰雪路面等不同工况条件下，车辆驾驶室内噪声的频谱特性也会有显著的差别，车辆在匀速行进、加速、紧急制动等不同工况下，其频谱特征更是频繁变化。虽然识别声因的频谱特性已经是较为成熟的现有技术，但引述论文及其他的现有汽车主动降噪技术均未能从噪声的频谱特性角度考虑算法上的分类规划和精简处理，因此其所需处理的实际数据量极其庞大，很难直接应用于复杂多变的真实行驶工况。

另一方面，云服务器以其海量的数据存储和强大的数据运算能力，已在信号处理领域获得广泛应用，但车辆行驶过程中所需采样的噪声具有噪声种类多、切换快等特点，尤其是其庞大的即时数据量将使得现有的随车自适应滤波器降噪系统无法及时有效地与基站云服务器通过远程无限通讯而随时保持高效畅通的海量数据的实时运算处理和反馈，其信息传递过程导致的时滞已经足以严重影响运算结果的及时性，因此，现有的云服务器运算处理能力无法及时有效地应用于随车降噪系统中。

而基于多带通滤波器始终以模拟信号为处理对象，其响应时间快于以数字信号为处理对象的自适应滤波器，同时，应用多带通滤波器处理频谱信号时，其还省略了先进行信号的模数转换、待控制芯片得出控制参数的计算结果以后再重新进行数模转换这两次转换过程，因此也可以进一步提高信号处理速度，用其处理音频信号，可以获得更短的响应时间和更好的相位匹配效果。但是，现有的多带通滤波器也同样面临车辆行驶过程中所需采样的噪声种类多、切换快等特点，庞大的数据量使得随车降噪系统无法及时有效地与基站云服务器通过远程无限通讯而随时保持高效畅通的海量数据的实时运算处理和反馈的棘手问题。

此外，高端汽车的研发设计已对智能化的车室噪声控制系统提出了更为严苛的理念要求，针对五人座椅的综合降噪方案还应可以拓展为针对更多座位对应的头部空间，其具体的最佳的降噪抵消区域应该可以在整个车室内部任意调整和设定，以便满足不同乘客数量、不同身高或不同听力的乘客的特别需求。现有的主动降噪方案尚且无法实现满足此类设计需求。仅仅对于五人座椅的常规轿车而言，在给定四个人造消音噪声扬声器位置的已知车辆空间内，其车室内的最佳降噪抵消区域发生的具体位置和范围就需要首先确定五个座椅分别对应的五个乘客头部所处的空间区域，综合获得和及时分析出这五个头部空间所对应的全部噪声矢量信号，以此为前提，才能给针对这五个座椅所对应的头部空间的综合降噪方案提供出相匹配的降噪消音信号的最优声音矢量信号的方案，以及分别确定电声系统所应该产生的每一个噪声源信号对应匹配的人造降噪消音信号矢量的实时最优值。这就使针对不同座椅位置、不同空间高度的降噪区域自由调整需求必须匹配及其强大的计算处理能力和数据存储能力，而现有以自适应滤波器为基础的车载控制系统是无法满足该运算量需求的，即便将自适应滤波器所需的处理数据通过无线网络实时上传至云服务器运算处理，再实时将控制结果数据无线下载回传至车载自适应滤波器，其海量的运算数据依然无法满足降噪系统对实时性的匹配需求。

因此若能研发一种行之有效的方法，使得车载降噪系统可以直接获得由云服务器计算处理的、并与车辆行驶的各种路况或工况即时对应的噪声频谱特征控制策略参数，并依据噪声的频谱特性对各种实际路况下的车室噪声进行分类，再仅针对每一类频谱特性所对应的典型噪声给出代表此类工况下噪声特性的降噪信号最优解，从而形成大幅精简的、仅包含有限个噪声分类和空间位置关系的离线消声专家数据库，就可以使车载降噪系统摆脱对海量数据实时传输的高度依赖，而获得以车载离线消声专家数据库为基础的更为快捷的随时改变降噪控制策略，从而得以及时有效地应对不同的噪声源，进而更加高效准确地产生对应的噪声抵消信号和取得较好的车内降噪效果，同时，还可以满足高端车辆的对其降噪区域可以任意调整设定高端需求。

发明内容

为了解决现有基于数字电路原理的自适应滤波器以及基于模拟电路原理的多带通滤波器均无法在离线行车的状态下通过无线传输方式与云服务器进行降噪运算所需的海量噪声信息的即时交互，致使现有的随车离线降噪系统无法获得云服务器的存储和运算能力的支持；现有的主动降噪方法均仅针对单一区域的理论模型，无法有效应用于多座椅的真实行车路况，其无法及时有效地对各种行车工况下噪声类型切换进行及时而准确的定性分类判断，进而无法快速给出对应工况下的最优的降噪参数处理方案，同时，旧有方法未能依据噪声的频谱特性对各种实际路况下的车室噪声进行分类和筛选，无法形成大幅精简的离线消声专家数据库，由此造成现有车载降噪系统响应速度时滞、降噪效果不理想、应对策略无法达到最优；以及现有的主动降噪方法无法满足高端车辆的对其降噪区域可以任意调整设定需求的技术问题，本发明提供一种基于启发式动态规划的汽车主动降噪方法。

本发明解决技术问题所采取的技术方案如下：

基于启发式动态规划的汽车主动降噪方法，其包括如下步骤：

步骤一：利用给定车型的试验车采集各种行驶工况下的海量噪声数据，其具体包括如下子步骤：

步骤1.1：根据被测试的汽车车型，确定该给定车型的试验车，再根据试验车的车室内空间尺寸结构建立三维坐标系，将车室内的空间按坐标划分为一百万个三维空间立方体网格；

步骤1.2：在试验车的车室内的前后左右布置四个麦克风拾音器，其中四个麦克风拾音器中的三个共面，另外一个位于该平面以外的其它高度，从而形成四面体布局结构；并在试验车的两侧前车门、后排座椅以及车顶，分别布置四个扬声器喇叭，四个扬声器喇叭也同样形成四面体布局结构；

步骤1.3：令试验车进行长途行驶试验，遍历沥青、水泥、砂石、泥土、冰雪、泥浆等道路条件，以及晴天、大风、阴雨、风雪等各类天气条件，并在对应的每一类行驶条件下，由麦克风拾音器采集该试验车匀速行驶、换挡、加速行驶、减速制动等行驶状态，从而通过步骤1.2所述的四个麦克风拾音器广泛收录和存储该试验车在各种行驶工况下的车室内的噪声信息；

步骤1.4：将步骤1.2所述的四个麦克风拾音器和四个扬声器喇叭各自的空间位置坐标均输入到步骤1.1所述的车室内三维坐标系下，并将步骤1.3所采集和存储的试验车在各种行驶工况下的噪声信息均上传至云服务器进行存储；

步骤二：依据试验车在不同行驶工况下的车室内噪声信息的频谱特性，对任意时刻下的行驶状态和行驶条件共同对应匹配的噪声的频谱特性进行分类，从而建立以声波的频率、幅值、相位三个参量共同作为频谱特性的考察对象，并以某一时刻下的行驶状态和行驶条件特征共同作为表征频谱特性的分类形式；

步骤三：建立基于多带通滤波器的降噪参数云网调试系统，其具体包括：建立基于云服务器的数据存储和运算能力的虚拟降噪声源信号发生系统，该降噪声源信号发生系统包括云服务器、由云服务器仿真并虚拟的四个虚拟拾音器、一个虚拟输入端功率放大器、五个虚拟耦合电容、五个虚拟可变带通滤波器、五个虚拟压控位移电路、五个虚拟可变增益放大器、一个虚拟输出端功率放大器和四个虚拟喇叭；每一个虚拟耦合电容均与一个对应的虚拟可变带通滤波器、一个虚拟压控位移电路和一个虚拟可变增益放大器四者共同构成一个给定频段下的虚拟人造降噪消音信号匹配发生通道，所形成的共计五条虚拟人造降噪消音信号匹配发生通道为五条不同频段的声波分析和匹配通道；每一个虚拟拾音器均与虚拟输入端功率放大器的输入端连接，虚拟输入端功率放大器的输出端通过云服务器分别与一条虚拟人造降噪消音信号匹配发生通道中的虚拟耦合电容连接，从而在云服务器中形成共计五条音频信号的虚拟输入通道；每一条虚拟人造降噪消音信号匹配发生通道均通过其虚拟可变增益放大器的输出端与虚拟输出端功率放大器的输入端连接，四个虚拟喇叭的输入端均与虚拟输出端功率放大器的输出端连接；四个虚拟喇叭的输出端均与虚拟输入端功率放大器的输入端连接，从而形成闭环反馈通道；

步骤四：建立基于噪声频谱特性和距离矢量之和的噪声矢量表征量：

步骤4.1：将步骤一所述一百万个三维空间立方体网格对应的车室内三维坐标系在云服务器中建立虚拟的三维模型，其中每一个网格的中心点均视为一个考察坐标点；

步骤4.2：对于每一个步骤4.1所述的考察坐标点，均求得其相对于步骤一所述四个麦克风拾音器的相对位置关系，从而获得该考察坐标点网格中心分别相对于每一个步骤一所述扬声器喇叭的位置向量，以及该考察坐标点相对于四个扬声器喇叭的向量之和；

步骤4.4：根据步骤4.2所述每一个考察坐标点的和向量的长度值和声波在给定温湿度的空气中的固有衰减特性，从而分别获得每一个考察坐标点对应的声波衰减特征数据，即获得与当前考察坐标点对应的一个以距离、方向、振幅、频率、相位五者共同为表征的、并且能够反应噪声频谱特性的噪声矢量信号；

步骤五：初步完成对噪声数据的时间排序和分类前的数学表达：选择任意一个步骤4.1所述的考察坐标点，将与该考察坐标点所对应的由步骤1.3所采样的全部噪声源信号历史数据按时间排序，并将这些噪声源信号均以步骤4.4所述的能够反应噪声频谱特性的噪声矢量信号的形式在云服务器中进行数学表达，该数学表达是由反应频谱特性的振幅、频率、相位、表示行车运动状态的参量、表示路面状态的参量、以及当前频谱特性对应的分类类别参量，共计六个参量的集合；其中，表示行车运动状态的参量、表示路面状态的参量、以及当前频谱特性对应的分类类别参量，其三者也均可以同时用幅值、频率、相位三个参量共同表示，因此，将幅值、频率、相位三个参量共同作为后续算法所考察的控制向量u(k)和系统的状态向量x(k)；按照同样的方法，逐一对每一个考察坐标点均建立基于同一个时间坐标系起点的历史数据表达排序；

步骤六：在云网调试系统中建立基于BP神经网络的HDP启发式动态规划算法控制器，其中，启发式动态规划HDP的执行网络、模型网络、评价网络均采用BP神经网络，建立HDP启发式动态规划算法控制器的模型网络、评价网络、执行网络、定义效用函数；其具体包括如下子步骤：

步骤6.1：建立HDP启发式动态规划算法控制器的模型网络：所述模型网络的层级结构为6—12—3的层级结构，即输入层包含6个节点、隐藏层包含12个节点、输出层包含3个节点，模型网络采用具有n+m个输入神经元，km个隐层神经元和n个输出神经元的结构；n+m个输入神经元分别为系统k时刻的状态向量x(k)的n个分量以及执行网络对状态向量x(k)的预测控制向量u(k)的m个分量，n个输出则是对系统在k+1时刻的状态向量x(k+1)的预测向量的n个分量；模型网络的隐藏层采用双极性sigmoidal函数，输出层采用线性函数purelin；其中，系统k时刻下针对任意一个考察坐标点的控制向量u(k)和系统的状态向量x(k)均由步骤五确立；

步骤6.2：建立HDP启发式动态规划算法控制器的评价网络：评价网络采用具有n个输入神经元，kj个隐藏层神经元和一个输出神经元的结构；n个输入神经元是状态向量的n个分量；输出神经元则是与输入状态对应的最优性能指标的估计；定义学习效率l_c、扣因子γ的值；评价网络的结构为3—3—1，输入层到隐藏层的权值为w_c1，隐藏层到输出层的权值为w_c2，评价网络允许误差ε_c，设定学习次数n_c，已学习次数c，c的初始值为0；评价网络的隐藏层采用双极性sigmoidal函数，输出层采用线性purelin函数；

步骤6.3：建立HDP启发式动态规划算法控制器的执行网络：执行网络采用具有n个输入神经元，ku个隐含层神经元和m个输出神经元的结构；n个输入是系统在k时刻的状态向量x(k)的n个分量；m个输出则是与输入状态x(k)对应的控制向量u(k)的m个分量，初始化执行网络权值；定义执行网络学习效率l_a及折扣因子γ_a的值；执行网络的结构为3—12—3，输入层到隐含层的权值为w_a1，隐含层到输出层的权值为w_a2；其中，系统k时刻下针对任意一个考察坐标点的控制向量u(k)和系统的状态向量x(k)均由步骤五确立；执行网络的隐含层采用双极性sigmoidal函数，输出层采用线性purelin函数；

步骤6.4：对步骤6.1所述的模型网络进行初次训练，其具体包括如下子步骤：

步骤6.4.1：初步设定一个具体的特定考察坐标点：以身高为170cm的司机在驾驶座椅上端坐时的双耳连线中心作为特定考察坐标点A1，并将由步骤五所述获得的、与考察A1点对应的控制向量u(k)和系统的状态向量x(k)均作为输入量，并随机初始化模型网络的权值w_m1，w_m2；

其中，w_m1为输入层到隐含层的权值，w_m2为隐含层到输出层之间的权值，设置训练次数c，允许误差ε，学习效率l_m；

步骤6.4.2：以步骤6.4.1所述考察A1点作为样本训练模型网络，其对应的控制向量u(k)和系统的状态向量x(k)均作为输入量，输入向量构成矩阵M(k)＝[u(k) x(k)]^T，输出向量为x(k+1)；其中，系统k时刻下针对任意一个考察坐标点的控制向量u(k)和系统的状态向量x(k)均由步骤五获得；其具体包括如下步骤：

步骤6.4.3：模型网络的正向计算；

步骤6.4.4：计算误差的具体数值：

式(4)中，x(k+1)是模型网络k+1时刻的期望输出值，是模型网络的预测输出值；

步骤6.4.5判断步骤6.4.4所求的误差值E_m(k+1)是否小于ε，若误差大于ε且训练次数小于c，则执行步骤6.4.6对模型网络的权值按下面的式子进行更新；若误差小于ε或训练次数大于等于c则执行步骤6.4.7；

步骤6.4.6更新权值

步骤6.4.6.1：更新隐含层到输出层之间的权值w_m2

w_m2(k+1)＝w_m2(k)+Δw_m2(k) (6)

步骤6.4.6.2：更新输入层到隐含层的权值w_m1：

w_m1(k+1)＝w_m1(k)+Δw_m1(k) (8)

完成两个权值的更新后返回并重新执行步骤6.4.3；

6.4.7.1:定义效用函数U(k)＝U[x(k),u(k),k]；效用函数的作用是将控制量和状态量结合到一起；效用函数是为了更加准确的定义系统的最优性能，不同的效用函数将产生不同的控制器；效用函数的作用是将控制量和状态量结合到一起；以便更加准确的定义系统的最优性能，不同的效用函数将产生不同的控制器；对于本系统，效用函数定义为U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)，其中A为3阶单位阵、B为3阶单位阵；

6.4.7.2:确定执行网络与评价网络的结构并初始化神经网络；执行网络的结构为3—12—3，输入层到隐含层的权值为w_a1，隐含层到输出层的权值为w_a2，学习效率为l_a；评价网络的结构为3—3—1，输入层到隐含层的权值为w_c1，隐含层到输出层的权值为w_c2，学习效率为l_c，允许误差为ε_c，设定训练次数为n_c，已训练次数为c，初始值c＝0；

6.4.7.3：从已有的实验数据中，选择N组数据作为训练样本，并设定系统的初始状态x(k)；

6.4.7.4：将x(k)作为执行网络的输入，产生控制动作u(k)；得到u(k)的计算过程如下：

式中，a_h1j(k)是执行网络k时刻隐含层的输出值，x_i(k)是执行网络k时刻输入状态的向量值，w_a1ij(k)是执行网络k时刻输入层到隐含层的权值；a_h2j(k)是执行网络k时刻隐含层到输出层的输入值；u_j(k)是执行网络k时刻输出层的输出值，w_a2ij(k)是k时刻执行网络隐含层到输出层的权值；

6.4.7.6：求解效用函数U(k)的值；

U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)

6.4.7.7：将x(k)输入到评价网络，得到k时刻的计算过程如下：

式中，c_h1j(k)是评价网络k时刻隐含层的输出值，w_c1ij(k)是评价网络k时刻输入层到隐含层的权值；c_h2j(k)是评价网络k时刻隐含层到输出层的输入值，是评价函数k时刻的预测输出值，w_c2j(k)是k时刻隐含层到输出层的权值；

6.4.7.8：将当前阶段的状态x(k)与执行网络输出的控制动作u(k)作为驶入向量M(k)输入到模型网络得到k+1时刻状态x(k+1)，得到x(k+1)的计算过程如下：

6.4.7.9：将状态x(k+1)输入到评价网络获得的计算过程如下：

6.4.7.10：计算评价网络误差E_c(k)，并判断E_c(k)与ε_c的大小；如果E_c(k)大于ε_c，则转步骤6.4.7.11，如果E_c(k)<＝ε_c则转步骤6.4.7.12；评价网络误差E_c(k)的计算如下式所示：

其中，

步骤6.4.7.11：更新评价网络的权值；评价网络的训练也采用梯度下降法，权值更新过程如下：

w_c2的更新：

w_c2(k+1)＝w_c2(k)+Δw_c2(k)

w_c1的更新：

w_c1(k+1)＝w_c1(k)+Δw_c1(k)

6.4.7.12：计算执行网络的误差E_a；

6.4.7.13：更新执行网络的权值；执行网络的训练以最小化为目标，训练也采用梯度下降法，权值更新过程如下：

6.4.7.14w_a2的更新：

式中，共m个，w_m1u＝w_m1(1:m,:)即w_m1的前m行；w_a2(k+1)＝w_a2(k)+Δw_a2(k)

w_a1的更新：

式中共m个；

w_a2(k+1)＝w_a2(k)+Δw_a2(k)

6.4.7.15：判断训练是否失败，如果E_c(k+1)＞ε_c，返回步骤6.4.7.4，否则转步骤6.4.7.16；

步骤6.4.7.16：判断是否达到最大训练次数，如果达即c＞n_c，转步骤6.4.7.15，否则，令c＝c+1，k＝k+1；如果c＜＝n_a转步骤6.4.7.4，进行下一次训练；

步骤6.4.7.17：初步迭代训练结束；

步骤6.4.7：完成对利用特定考察坐标点A1对模型网络的训练子步骤，从而在云服务器中求得针对A1点当前噪声矢量信号的所需人造降噪消音信号最优解；

步骤6.5：按照与步骤6.4.1完全相同的方法，在身高为160cm～180cm的垂直高度上，分别设定10个司机双耳连线中心作为特定考察坐标点A1至A10，并重复步骤6.4.1至步骤6.4.7的模型网络训练过程，从而分别求得考察坐标点A1至A10分别对应的当前噪声矢量信号的所需人造降噪消音信号最优解；

步骤6.6：按照与步骤6.5完全相同的方法，求取试验车副驾驶座椅的垂直高度上分布的第二组共计10个特定考察坐标点B1至B10分别对应的人造降噪消音信号最优解；

步骤6.6：按照与步骤6.5完全相同的方法，分别在试验车后排的三个乘客座椅垂直高度上求取对应的第三、四、五组共计三组，每组10个特定考察坐标点各自位置所分别对应的人造降噪消音信号最优解，从而完成对步骤6.1所述模型网络的训练过程；

步骤6.7：从步骤4.1所述的其余考察坐标点中另行随机挑选50个考察点，并按照步骤6.4所述的相同方法，将这50个样本分别带入步骤6.6所述完成训练后的模型网络，对其进行验证；验证结果不收敛或未达到规定的迭代次数时，则按步骤6.4.7.4所述方法重新训练；

通过选择100组数据作为训练样本，50组数据作为测试样本；输入样本M(k)＝[u(k) x(k)]^T(k＝1,2,...,100)，期望输出样本为x(k)，其中u(k)的三个分量分别为频率、相位、幅值，x(k)的三个分量分别为相位、幅值、频率；

通过上述方式，最终完成对模型网络的全部训练过程；

步骤七：将步骤4.1所述的一百万个网格的中心考察坐标点均逐一作为样本，分别带入步骤6.6所述完成训练后的HDP启发式动态规划算法控制器的模型网络，求解出每一个考察点各自对应的人造降噪消音信号最优解，并将该最优解的集合作为离线专家数据库，加以保存；

步骤八：依据步骤三所述虚拟降噪声源信号发生系统，在同款车型的每一辆商品车中均安装一套真实的车载降噪系统的核心硬件，其具体包括如下子步骤：

步骤8.1：在真实的商品车上安装触摸屏显示器、车载控制器、四个拾音器、一个输入端功率放大器、五个耦合电容、五个可变带通滤波器、五个压控位移电路、五个可变增益放大器、一个输出端功率放大器和四个喇叭；每一个耦合电容均与一个对应的可变带通滤波器、一个压控位移电路和一个可变增益放大器四者共同构成一个给定频段下的人造降噪消音信号匹配发生通道，所形成的共计五条人造降噪消音信号匹配发生通道为五条不同频段的声波分析和匹配通道；每一个拾音器均与输入端功率放大器的输入端连接，输入端功率放大器的输出端通过车载控制器分别与一条人造降噪消音信号匹配发生通道中的耦合电容连接，从而形成共计五条音频信号的输入通道；每一条人造降噪消音信号匹配发生通道均通过其可变增益放大器的输出端与输出端功率放大器的输入端连接，四个喇叭的输入端均与输出端功率放大器的输出端连接，四个喇叭的输出端均与输入端功率放大器的输入端连接，触摸屏显示器与车载控制器电气连接；

所述四个拾音器和四个喇叭各自在商品车内的空间布局位置均与其各自在步骤1.2所述的试验车中的布置位置完全相同；所述车载控制器与四个拾音器、一个输入端功率放大器、五个耦合电容、五个可变带通滤波器、五个压控位移电路、五个可变增益放大器、一个输出端功率放大器和四个喇叭共同构成一个商品车上的车载降噪系统；

步骤8.2：将由步骤七所获得的离线专家库固化到步骤8.1所述商品车的车载控制器中，并由该车载控制器对商品车的车载降噪系统进行控制，实现汽车的主动降噪。

本发明的有益效果如下：

本发明基于启发式动态规划的汽车主动降噪方法通过开创一套行之有效的新方法，使得车载降噪系统可以直接获得由云服务器计算处理的、并与车辆行驶的各种工况即时对应的噪声频谱特性控制策略参数，并依据噪声的频谱特性对各种实际行驶工况下的车室噪声进行分类，再仅针对每一类频谱特性所对应的典型噪声给出代表此类工况下噪声特性的降噪信号最优解，从而形成大幅精简的、仅包含有限个噪声分类和空间位置关系的离线消声专家数据库，该方法显著有别于现有的汽车主动降噪技术和其它降噪技术，可以使车载降噪系统摆脱对海量数据实时传输的及时性和可靠性的高度依赖，而获得以车载离线消声专家数据库为基础的更为快捷的随时改变降噪控制策略，从而得以及时有效地应对不同的噪声源，进而更加高效准确地产生对应的噪声抵消信号和取得较好的车内降噪效果，将汽车主动降噪方法从理论化的实验室模型验证推进到真实的实验车和商品车应用层面，同时，该方法还可以满足高端车辆的对其降噪区域可以任意调整设定的高端需求。

此外，该方法还首创性地在云服务器的虚拟环境中对噪声信息的海量大数据库中的数据进行拟合，通过启发式动态规划训练出的模型网络和执行网络来寻找数据库中噪声频谱特性的规律，将频谱特性相似的噪声数据拟合到一起，建立从庞大的数据库中缩减生成数据量较少的离线专家库，实现噪声数据的最优化，为系统提供最优的控制量，该创新方式使得本方法得以克服现有的汽车主动降噪方法需要对海量数据逐一实时运算的弊端，经过实际测试，该方法完全可以满足真实路况下实际行驶的汽车降噪需求，因此具有较大的市场前景和潜在的经济价值。

具体实施方式

下面结合实施例对本发明做进一步详细说明。

本发明基于启发式动态规划的汽车主动降噪方法包括如下步骤：

步骤一：利用给定车型的试验车广泛采集各种行驶工况下的海量噪声数据，其具体包括如下子步骤：

步骤二：依据试验车在不同行驶工况下的车室内噪声信息的频谱特性，对任意时刻下的行驶状态和行驶条件共同对应匹配的噪声的频谱特性进行分类，从而建立以声波的频率、幅值、相位三个参量共同作为频谱特性的考察对象，并以某一时刻下的行驶状态和行驶条件特征共同为表征的频谱特征的分类形式，例如：匀速行驶于冰雪路面、加速行驶于砂石路面、紧急制动于水泥路面等分类，该分类的实际种类数量由云服务器将各种工况与车况排列组合而确定，其实际获得的分类种类是有限且可求的已知数，而不可能是海量个不同的种类；

步骤三：建立基于多带通滤波器的降噪参数云网调试系统，其具体包括：建立基于云服务器的超强数据存储和运算能力的虚拟降噪声源信号发生系统，该降噪声源信号发生系统包括云服务器、由云服务器仿真并虚拟的四个虚拟拾音器、一个虚拟输入端功率放大器、五个虚拟耦合电容、五个虚拟可变带通滤波器、五个虚拟压控位移电路、五个虚拟可变增益放大器、一个虚拟输出端功率放大器和四个虚拟的喇叭；所述每一个虚拟耦合电容均与一个对应的虚拟可变带通滤波器、一个虚拟压控位移电路和一个虚拟可变增益放大器四者共同构成一个给定频段下的虚拟人造降噪消音信号匹配发生通道，所形成的共计五条虚拟人造降噪消音信号匹配发生通道为五条不同频段的声波分析和匹配通道；所述每一个虚拟拾音器均与虚拟输入端功率放大器的输入端连接，虚拟输入端功率放大器的输出端均通过云服务器分别与一条虚拟人造降噪消音信号匹配发生通道中的虚拟耦合电容连接，从而在云服务器中形成共计五条音频信号的虚拟输入通道；每一条虚拟人造降噪消音信号匹配发生通道均通过其虚拟可变增益放大器的输出端与虚拟输出端功率放大器的输入端连接，四个虚拟喇叭的输入端均与虚拟输出端功率放大器的输出端连接；四个虚拟喇叭的输出端均与虚拟输入端功率放大器的输入端连接，从而形成闭环反馈通道；

步骤4.2：对于步骤4.1所述的每一个考察坐标点，均求得其相对于步骤一所述四个麦克风拾音器的相对位置关系，从而获得该考察坐标点网格中心分别相对于每一个步骤一所述扬声器喇叭的位置向量，以及该考察坐标点相对于四个扬声器喇叭的向量之和；

步骤五：初步完成对噪声数据的时间排序和分类前的数学表达：选择步骤4.1所述的任意一个考察坐标点，将与该考察坐标点所对应的由步骤1.3所述采样的全部噪声源信号历史数据按时间排序，并将这些噪声源信号均以步骤4.4所述的能够反应噪声频谱特性的噪声矢量信号的形式在云服务器中进行数学表达，该数学表达是由反应频谱特性的振幅、频率、相位、表示行车运动状态的参量、表示路面状态的参量、以及当前频谱特性对应的分类类别参量，共计六个参量的集合；其中，表示行车运动状态的参量、表示路面状态的参量、以及当前频谱特性对应的分类类别参量，其三者也均可以同时用幅值、频率、相位三个参量共同表示，因此，将幅值、频率、相位三个参量共同作为后续算法所考察的控制向量u(k)和系统的状态向量x(k)；按照同样的方法，逐一对每一个考察坐标点均建立基于同一个时间坐标系起点的历史数据表达排序；

步骤六：在云网调试系统中建立基于BP神经网络(back propagation)的HDP启发式动态规划(Heuristic Dynamic Programming)算法控制器，其中，启发式动态规划HDP的执行网络、模型网络、评价网络均采用BP神经网络，建立HDP启发式动态规划算法控制器的模型网络、评价网络、执行网络、定义效用函数；其具体包括如下子步骤：

步骤6.1：建立HDP启发式动态规划算法控制器的模型网络：所述模型网络的层级结构为6—12—3的层级结构，即输入层包含6个节点、隐藏层包含12个节点、输出层包含3个节点，型网络采用具有n+m个输入神经元，km个隐层神经元和n个输出神经元的结构；n+m个输入神经元分别为系统k时刻的状态向量x(k)的n个分量以及执行网络对状态向量x(k)的预测控制向量u(k)的m个分量，n个输出则是对系统在k+1时刻的状态向量x(k+1)的预测向量的n个分量；模型网络的隐藏层采用公知的双极性sigmoidal函数，(参考文献：Sigmoid，Han,Jun；Morag,Claudio.The influence of the sigmoid functionparameters onthe speed of backpropagation learning：From Natural to ArtificialNeural Computation.，1995：195–201)，输出层采用公知的线性函数purelin；其中，系统k时刻下针对任意一个考察坐标点的控制向量u(k)和系统的状态向量x(k)均由步骤五确立；

步骤6.2：建立HDP启发式动态规划算法控制器的评价网络：

评价网络采用具有n个输入神经元，kj个隐藏层神经元和一个输出神经元的结构；n个输入神经元是状态向量的n个分量；输出神经元则是与输入状态对应的最优性能指标的估计；初始化评价网络的权值；定义学习效率l_c、及折扣因子γ的值；评价网络的结构为3—3—1，输入层到隐藏层的权值为w_c1，隐藏层到输出层的权值为w_c2，评价网络允许误差ε_c，设定学习次数n_c，已学习次数c并从采集的实验数据中取100个样本数据用于训练评价网络与执行网络，c的初始值为0；评价网络的隐藏层采用双极性sigmoidal函数，输出层采用线性函数purelin，由于自适应动态规划的三个网络所采用的结构是基于神经网络结构，而神经网络的构成需要引入非线性结构来应用于对象，由于sigmoid的函数性质和神经学的神经元的突触一致、而且好求导输出范围有限、数据在传递的过程中不容易发散等优点，所以通常引用Sigmoid函数作为非线性结构。

步骤6.3：建立HDP启发式动态规划算法控制器的执行网络：

执行网络采用具有n个输入神经元，ku个隐层神经元和m个输出神经元的结构；n个输入是系统在k时刻的状态向量x(k)的n个分量；m个输出则是与输入状态x(k)对应的控制向量u(k)的m个分量，初始化权值；定义执行网络学习效率l_a及折扣因子γ_a的值；执行网络的结构为3—12—3，输入层到隐含层的权值为w_a1，隐含层到输出层的权值为w_a2；其中，系统k时刻下针对任意一个考察坐标点的的控制向量u(k)和系统的状态向量x(k)均由步骤五获得；执行网络的隐含层采用双极性sigmoidal函数，输出层采用线性函数purelin；

步骤6.4.3：模型网络的正向计算；

步骤6.4.4：计算误差的具体数值：

步骤6.4.6更新权值

步骤6.4.6.1：更新隐含层到输出层之间的权值w_m2

w_m2(k+1)＝w_m2(k)+Δw_m2(k) (6)

步骤6.4.6.2：更新输入层到隐含层的权值w_m1：

w_m1(k+1)＝w_m1(k)+Δw_m1(k) (8)

完成两个权值的更新后返回并重新执行步骤6.4.3；

6.4.7.2:确定执行网络与评价网络的结构并初始化神经网络；执行网络的结构为3—12—3，输入层到隐含层的权值为w_a1，隐含层到输出层的权值为w_a2，学习效率为l_a；评价网络的结构为3—3—1，输入层到隐含层的权值为w_c1，隐含层到输出层的权值为w_c2，学习效率为l_c，允许误差为ε_c，设定训练次数为n_c，已训练次数为c(初始值c＝0)；

式中，a_h1j(k)是执行网络k时刻隐含层的输出值，x_i(k)是执行网络k时刻输入状态的向量值，w_a1ij(k)是执行网络k时刻输入层到隐含层的权值；a_h2j(k)是执行网络k时刻隐含层到输出层的输入值；u_j(k)是执行网络k时刻输出层的输出值，w_a2ij(k)是k时刻执行网络隐含层到输出层的权值。

6.4.7.6：求解效用函数U(k)的值；

U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)

6.4.7.7：将x(k)输入到评价网络，得到k时刻的计算过程如下：

式中，c_h1j(k)是评价网络k时刻隐含层的输出值，w_c1ij(k)是评价网络k时刻输入层到隐含层的权值；c_h2j(k)是评价网络k时刻隐含层到输出层的输入值，是评价函数k时刻的预测输出值，w_c2j(k)是k时刻隐含层到输出层的权值。

6.4.7.9：将状态x(k+1)输入到评价网络获得的计算过程如下：

其中，

w_c2的更新：

w_c2(k+1)＝w_c2(k)+Δw_c2(k)

w_c1的更新：

w_c1(k+1)＝w_c1(k)+Δw_c1(k)

6.4.7.12：计算执行网络的误差E_a；

6.4.7.14w_a2的更新：

w_a1的更新：

式中共m个；

w_a2(k+1)＝w_a2(k)+Δw_a2(k)

6.4.7.15：判断训练是否失败，如果失败(即E_c(k+1)＞ε_c)，返回步骤6.4.7.4，否则转步骤6.4.7.16；

步骤6.4.7.17：初步迭代训练结束；

即，将A1点在k时刻对应的的控制向量u(k)和状态向量x(k)作为输入，从而求得模型网络的输出为k+1时刻的状态向量x(k+1)；其中，所求得的控制向量u(k)包括频率、相位、幅值三个分量分别表示步骤三所述一个给定频段下的人造降噪消音信号匹配发生通道中的一个虚拟的可变带通滤波器、一个虚拟的压控位移电路和一个可变增益放大器分别对应的针对当前A1点所需制造的降噪声源信号的频率、相位、幅值三个分量各自所需的具体匹配调整参数值；同时，所求得的系统的状态向量x(k)为一个独立向量，其表示由当前A1点噪声矢量信号的幅值、频率和相位三个分量所共同决定的噪声频谱特性的具体类别；该噪声频谱特性的类别属性必然与一个行车工况下的噪声特征对应映射；比如冰雪路面下的减速状态、沥青路面下的匀速行进状态、砂石路面下的制动状态等；

通过上述方式，最终完成对模型网络的全部训练过程；

步骤七：将步骤4.1所述的一百万个网格的中心考察坐标点均逐一作为样本，分别带入步骤6.6所述完成训练后的HDP启发式动态规划算法控制器的模型网络，从而利用云服务器的超级数据存储和计算能力，求解出每一个考察点各自对应的人造降噪消音信号最优解，并将该最优解的集合作为离线专家数据库，加以保存；

其中，具体针对每一个考察点在给定时刻下所求得的控制向量u(k)均包括频率、相位、幅值三个分量在当前一个给定频段下的虚拟人造降噪消音信号匹配发生通道中的一个虚拟可变带通滤波器、一个虚拟压控位移电路和一个虚拟可变增益放大器分别对应的、与当前考察点所需制造的降噪声源信号的频率、相位、幅值三个分量各自所需的具体匹配调整参数值；同时，所求得的系统的状态向量x(k)也同时对应体现了由当前点噪声矢量信号的幅值、频率和相位三个分量所共同决定的噪声频谱特性的具体类别；该噪声频谱特性的类别属性必然与一个比如冰雪路面下的减速状态、沥青路面下的匀速行进状态、砂石路面下的制动状态等行驶工况下的噪声特征对应映射；

进而，通过步骤七所获得的离线专家数据库可以针对试验车中如步骤4.1所述任意一个三维空间立体网格中心点在其任意时刻对应人造降噪消音信号最优解的解集，该解集针对试验车室内空间的每一考察点，均能直接给出其频谱特性对应的分类类别，并同时给出考察点到四个虚拟喇叭的矢量之和所对应的每一个虚拟人造降噪消音信号匹配发生通道中的一个虚拟可变带通滤波器、一个虚拟压控位移电路和一个虚拟可变增益放大器各自所需制造的降噪声源信号的频率、相位、幅值三个分量各自所需的具体匹配调整参数值；因此，通过步骤七所获得的离线专家数据库可以给出任意一个车室内给定考察点在任意一种行车状态和路况特征下对应的人造降噪消音信号的所需匹配参数值；

步骤8.1：在真实的商品车上安装触摸屏显示器、车载控制器、四个拾音器、一个输入端功率放大器、五个耦合电容、五个可变带通滤波器、五个压控位移电路、五个可变增益放大器、一个输出端功率放大器和四个喇叭；所述每一个耦合电容均与一个对应的可变带通滤波器、一个压控位移电路和一个可变增益放大器四者共同构成一个给定频段下的人造降噪消音信号匹配发生通道，所形成的共计五条人造降噪消音信号匹配发生通道为五条不同频段的声波分析和匹配通道；所述每一个拾音器均与输入端功率放大器的输入端连接，输入端功率放大器的输出端通过车载控制器分别与一条人造降噪消音信号匹配发生通道中的耦合电容连接，从而形成共计五条音频信号的输入通道；每一条人造降噪消音信号匹配发生通道均通过其可变增益放大器的输出端与输出端功率放大器的输入端连接，四个喇叭的输入端均与输出端功率放大器的输出端连接，四个喇叭的输出端均与输入端功率放大器的输入端连接，触摸屏显示器与车载控制器电气连接；

步骤8.2：将由步骤七所获得的离线专家库固化到步骤8.1所述商品车的车载控制器中，并由该车载控制器对商品车的车载降噪系统进行控制，进而实现汽车的主动降噪。

具体应用本发明的基于启发式动态规划的汽车主动降噪方法时，驾驶步骤8.2所述安装有车载降噪系统和离线专家库的商品车在真实路况下正常行驶，并由其车载的四个拾音器按照与步骤1.3完全相同的方式采集在各种行驶工况下的车室内噪声信息，并将其所实时采集到的噪声源信号直接输入至车载控制器，车载控制器通过对当前降噪声源信号的频谱特征进行识别运算，直接按照步骤七所获得的离线专家库中已经存储的噪声频谱特性对当前的降噪声源信号进行归类，然后，再直接从离线专家库中调取与该噪声分类完全匹配的人造降噪消音信号的所需匹配参数值，即可通过车载降噪系统产生出针对商品车内的任意一个给定空间点的人造降噪消音信号最优值。

商品车内的任意一个给定空间点的位置可以由驾驶员依据触摸屏显示器向车载控制器进行输入和设定，其中，如步骤6.3至步骤6.5所述针对驾驶座椅司机双耳连线中心的共计10个第一组特定考察坐标点A1至A10，以及针对车后排的三个乘客座椅垂直高度上求取对应的第三、四、五组共计三组，每组10个特定考察坐标点各自位置所分别对应的人造降噪消音信号最优解降噪方案，均可通过触摸屏显示器直接依据其所需的位置和高度直接调取；此外，按照车室内的空间几何中心点，也同样求取一组对应的人造降噪消音信号最优解降噪方案，与作为第六组的整体室内降噪最优方案，与前述五组针对个别座椅的最优降噪方案一并存储于车载控制器内，以方便用户快速调取。

本发明基于启发式动态规划的汽车主动降噪方法中HDP的模型网络通过用神经网络进行建模，执行网络用来近似最优控制规律，评价网络用来近似最优性能指标函数，执行网络与评价网络组合相当于一个智能体，控制执行作用于动态系统后，通过在不同阶段的奖惩来评判函数，并利用函数近似结构或者神经网络实现对执行网络和评判网络的逼近，评价网络的参数更新是基于贝尔曼最优原理进行的，对网络结构中的参数进行动态的调整，以至于执行网络可以一直输出最优的控制量。

Claims

1.基于启发式动态规划的汽车主动降噪方法，其特征在于：该方法包括如下步骤：

步骤1.4：将步骤1.2所述的四个麦克风拾音器和四个扬声器喇叭各自的空间位置坐标均输入到步骤1.1所述车室内的三维坐标系下，并将步骤1.3所采集和存储的试验车在各种行驶工况下的噪声信息均上传至云服务器进行存储；

步骤6.4.1：初步设定一个具体的特定考察坐标点：以身高为170cm的司机在驾驶座椅上端坐时的双耳连线中心作为特定考察坐标点A1，并将由步骤五获得的、与考察A1点对应的控制向量u(k)和系统的状态向量x(k)均作为输入量，并随机初始化模型网络的权值w_m1，w_m2；

步骤6.4.2：以步骤6.4.1所述考察A1点作为样本训练模型网络，其对应的控制向量u(k)和系统的状态向量x(k)均作为输入量，输入向量构成矩阵M(k)＝[u(k)x(k)]^T，输出向量为x(k+1)；其中，系统k时刻下针对任意一个考察坐标点的控制向量u(k)和系统的状态向量x(k)均由步骤五获得；其具体包括如下步骤：

步骤6.4.3：模型网络的正向计算；

步骤6.4.4：计算误差的具体数值：

步骤6.4.6更新权值

步骤6.4.6.1：更新隐含层到输出层之间的权值w_m2

w_m2(k+1)＝w_m2(k)+Δw_m2(k) (6)

步骤6.4.6.2：更新输入层到隐含层的权值w_m1：

w_m1(k+1)＝w_m1(k)+Δw_m1(k) (8)

完成两个权值的更新后返回并重新执行步骤6.4.3；

6.4.7.6：求解效用函数U(k)的值；

U(k)＝x^T(k)Ax(k)+u^T(k)Bu(k)

6.4.7.7：将x(k)输入到评价网络，得到k时刻的计算过程如下：

6.4.7.9：将状态x(k+1)输入到评价网络获得的计算过程如下：

式中，c_h1j(k+1)是评价网络k+1时刻隐含层的输出值，c_h2j(k+1)是评价网络k+1时刻隐含层到输出层的输入值，是评价函数k+1时刻的预测输出值；

其中，

w_c2的更新：

w_c2(k+1)＝w_c2(k)+Δw_c2(k)

w_c1的更新：

w_c1(k+1)＝w_c1(k)+Δw_c1(k)

6.4.7.12：计算执行网络的误差E_a；

6.4.7.14w_a2的更新：

w_a1的更新：

式中共m个；

w_a2(k+1)＝w_a2(k)+Δw_a2(k)

步骤6.4.7.17：初步迭代训练结束；

通过上述方式，最终完成对模型网络的全部训练过程；

步骤七：将步骤4.1所述的一百万个网格的中心考察坐标点均逐一作为样本，分别带入步骤6.6完成训练后的HDP启发式动态规划算法控制器的模型网络，求解出每一个考察点各自对应的人造降噪消音信号最优解，并将该最优解的集合作为离线专家数据库，加以保存；