CN117953911A

CN117953911A - 一种飞机模拟器声音降噪方法、系统、设备及介质

Info

Publication number: CN117953911A
Application number: CN202410345666.4A
Authority: CN
Inventors: 王黎静; 李润豪; 王小龙; 赵彦锃; 徐海鑫; 蔡天旸; 邹雨楠; 章骏; 邹佳莹
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26
Also published as: CN117953911B

Abstract

本发明公开一种飞机模拟器声音降噪方法、系统、设备及介质，涉及音频降噪领域，方法包括获取飞机模拟器声音系统的声音数据；对所述声音数据进行分类，得到分类音频数据；将所述分类音频数据进行短时傅里叶变换处理，得到频谱帧；对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧；所述神经网络包括循环神经网络和深度Q网络；对所述处理后的频谱帧进行逆短时傅里叶变换，得到降噪后的音频。本发明能实现低成本且高效的声音降噪。

Description

一种飞机模拟器声音降噪方法、系统、设备及介质

技术领域

本发明涉及音频降噪领域，特别是涉及一种飞机模拟器声音降噪方法、系统、设备及介质。

背景技术

现有的一种基于短时傅里叶变换的声音静噪方法，其方法包括设置频点进行采集，采集数据进行解调和滤波处理，选择分段长度并做短时傅里叶变换得到功率谱密度，将得到的数据与阈值进行比较，将处理结果送入上位机播放，能够更高效、更可靠和更高质量的实现声音静噪。该方法为利用短时傅里叶变化进行降噪的典型方法，求得数据的功率谱密度，更好地反映出声音信息的频率信息，从而更准确的区分有用信息和噪声，但其使用时对于不同长度，声调，音色，噪杂度的音频信号，其分段长度，阈值，滤波方式，Kaiser窗，窗长度，FFT长度以及跳跃长度等参数均有所不同，且差异巨大，需要通过人耳多次主观听取从而调整参数大小，效率低，在使用该方法时花费时间与精力长，十分繁琐。

除上述方法外，目前在处理降噪问题时，存在多种模型降噪算法，其大部分利用CNN神经网络来学习输入噪声音频和对应的干净音频之间的映射关系，模型算法的实现需要大量的成对存在的干净噪声音频信号与包含噪声的音频信号模型数据进行训练。通常，该网络由多个卷积层和池化层组成，用于提取音频的时域和频域特征。在训练过程中，网络通过对比同一频段的含噪音频与干净音频之间的信噪比、语音失真度、声道畸变等评估指标来进行含噪音频分解重构，使重构后的音频信号最大程度拟合于干净音频，以此进行模型的训练。大量模型训练完毕后，便可以用于降噪新的含噪音频。该方法首先来说需要大量处理同一频段的含噪音频与干净音频数据来供神经网络学习训练，在降噪任务中，获取成对的含噪音频与干净音频数据特别困难，通过得到干净音频，后期加噪的方式得到的音频数据对模型的训练效果也是十分有限，所以该方法的降噪效果很难保证。其次当训练数据有限时，深度学习模型容易过拟合，一旦对环境和数据进行替换，结果便会表现不佳。最后深度学习模型通常需要大量的计算资源进行训练和推理，对于降噪算法模型的建立则需要更多的计算资源，成本极高。因此，需要一种低成本且高效的降噪方法。

发明内容

本发明的目的是提供一种飞机模拟器声音降噪方法、系统、设备及介质，可实现低成本且高效的声音降噪。

为实现上述目的，本发明提供了如下方案。

一种飞机模拟器声音降噪方法，包括：获取飞机模拟器声音系统的声音数据；对所述声音数据进行分类，得到分类音频数据；将所述分类音频数据进行短时傅里叶变换处理，得到频谱帧；对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧；所述神经网络包括循环神经网络和深度Q网络；对所述处理后的频谱帧进行逆短时傅里叶变换，得到降噪后的音频。

可选地，对所述声音数据进行分类，得到分类音频数据，具体包括：按照录音设备对声音数据进行分类，得到初始分类结果；对所述初始分类结果进行特征提取，得到特征数据；对所述特征数据进行标准化和归一化处理，得到标准音频信号；对所述标准音频信号进行主成分分析，得到分类音频数据。

可选地，对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧，具体包括：将所述频谱帧输入所述循环神经网络进行时序特征分析，得到音频数据的时序特征；将所述音频数据的时序特征输入所述深度Q网络进行降噪处理，得到处理后的频谱帧。

本发明还提供一种飞机模拟器声音降噪系统，包括：获取模块，用于获取飞机模拟器声音系统的声音数据；分类模块，用于对所述声音数据进行分类，得到分类音频数据；短时傅里叶变换模块，用于将所述分类音频数据进行短时傅里叶变换处理，得到频谱帧；降噪模块，用于对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧；所述神经网络包括循环神经网络和深度Q网络；逆短时傅里叶变换模块，用于对所述处理后的频谱帧进行逆短时傅里叶变换，得到降噪后的音频。

可选地，分类模块具体包括：分类单元，用于按照录音设备对声音数据进行分类，得到初始分类结果；特征提取单元，用于对所述初始分类结果进行特征提取，得到特征数据；标准化和归一化处理单元，用于对所述特征数据进行标准化和归一化处理，得到标准音频信号；主成分分析单元，用于对所述标准音频信号进行主成分分析，得到分类音频数据。

可选地，降噪模块具体包括：时序特征分析单元，用于将所述频谱帧输入所述循环神经网络进行时序特征分析，得到音频数据的时序特征；降噪单元，用于将所述音频数据的时序特征输入所述深度Q网络进行降噪处理，得到处理后的频谱帧。

本发明还提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的方法。

本发明还提供一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果。

本发明对所述声音数据进行分类，得到分类音频数据；将所述分类音频数据进行短时傅里叶变换处理，得到频谱帧；对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧；所述神经网络包括循环神经网络和深度Q网络；对所述处理后的频谱帧进行逆短时傅里叶变换，得到降噪后的音频。将短时傅里叶变换和神经网络结合对声音进行降噪处理，从而实现低成本且高效的声音降噪。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为蒙特卡洛树搜索过程图。

图2为声音降噪算法建立流程图。

图3为本发明提供的飞机模拟器声音降噪方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图2和图3所示，本发明提供的一种飞机模拟器声音降噪方法，包括如下步骤。

步骤101：获取飞机模拟器声音系统的声音数据。

本发明主要针对的是飞机模拟器内部的声音系统的降噪处理过程，首先进行第一步采集声音数据的过程，在真实飞机机舱内，将传感器固定在飞行员的耳旁，直接采集其接收到的声音信号。

人耳的听觉范围是20Hz~20kHz，根据香农采样定理，公式为Fs≥2Fmax。Fmax表示原始信号中的最高频率成分，Fs表示采样频率，采样率越高，稍后恢复的波形就越接近原信号。故当采样频率Fs>=2Fmax时，可以完全恢复原始信号。故选择采样频率Fs=44.1Hz，采样位数Bit=16bit，单声道channel=1。另需要采集的声音还需依据中国民用航空局（CAAC）的AC-60-01《飞行模拟训练设备管理和运行规则》和HB7504.15《飞行模拟器设计和性能的数据要求音响和振动》。

飞机在飞行过程中会产生各种声音。这些声音来自不同的声源，并具有不同的声源特点。了解这些声音的声源以及声源特点，是对项目声音录制、声音分析与仿真以及播放工作的有力支持。其中各声源的特点如下：

（1）动力装置声音：飞机动力装置在运行过程中产生的声音，其中包括：发动机启动、螺旋桨声、排气声、转子声、拍频声。这种声音决定于很多因素，比如：飞机的类型、发动机转子的转速、飞机飞行的速度、飞行的状态等因素。

其中发动机的声音是由飞机发动机内部的涡轮压缩机和涡轮风扇的转动而产生的，其声音通常是持续的、低频的隆隆声。因此发动机声音主要是由转速决定，转速既决定了发动机声音的音量，也决定了发动机声音的频率。此外，发动机声音还与海拔有关。

（2）空气动力声音：从原理上来说飞机机体的外表面应该是流线型设计，然而在实际中由于技术原因，机体外表面并不是完全的光滑，而是被划分成各个子部分，比如前风挡。因此，当飞机与周围的空气有相对运动时，在这些不连续处就会有湍流出现。从声学角度看，这些湍流就产生了声音，并且这些声音似乎就来自于前风挡与机体的结合处。理论上，影响空气动力声音的因素很多，比如飞机的速度以及气流相对于机体的流动方向，而气流流动方向又受飞机的姿态和可能出现的风向的影响。此外，空气动力声音还取决于空气密度，而空气密度又与海拔高度和空气温度有关。在实际仿真时，各种因素都考虑显然不切实际，根据实际采集到的声音数据，主要考虑飞机速度和海拔这两个因素。

（3）起落架声音：起落架在飞机起、降时的机械运动产生的声音，其中包括：起落架上锁、下锁、着陆接地发出的声音及轮胎爆破声。这种声音的变化较小，可以认为是不受其它因素影响的声音。其通常是机械的、连续的声音，可以在飞机接近地面时听到。

（4）跑道效应声音：飞机在起飞和着陆阶段当在跑道上滑跑时，轮胎将产生声音，这是由于轮胎与跑道地面间的摩擦以及路面颗粒的不均匀造成的。该声音主要与轮胎转速与飞机滑行速度之间的关系以及轮胎与地面的接触压力有关。此外，该声音还受轮胎的工作状态、刹车系统以及起落架悬挂等因素的影响。最后，当跑道上有水、冰、雪时声音也有所变化。在实际仿真中主要考虑飞机速度和跑道粗糙度对轮胎滑跑声音的影响。

这种声音是由于飞机轮胎与地面的摩擦而产生的，其中包括：飞机的主轮和前轮在地面上滑跑产生的摩擦声、隆隆声。这种声音主要受飞机飞行的速度因素影响。

（5）大气效应声音：如雨声、冰雹声、雷声等。其特点取决于大气的物理和气象条件，不同气象现象对应不同的效应声音。

（6）其他声音：如飞机摔毁、武器效应、备用地平仪通电后陀螺加速旋转而产生的声音以及气流在风挡上产生的声音和风挡刮水刷声音。其声音大多是机械的或电子的，具体声源特点取决于设备类型和运行状态。

步骤102：对所述声音数据进行分类，得到分类音频数据。

步骤102具体包括：按照录音设备对声音数据进行分类，得到初始分类结果；对所述初始分类结果进行特征提取，得到特征数据；对所述特征数据进行标准化和归一化处理，得到标准音频信号；对所述标准音频信号进行主成分分析，得到分类音频数据。

利用录音设备从真实飞机驾驶舱的沉浸式环境中提取出在不同飞行状态下飞机的每个部件的对应声音，将其进行分类标注。

飞机实际飞行时声音的种类繁多，因此把所有种类的声音都仿真模拟处理难度较大。在模拟飞机飞行的声音时，理论上需要最真实地模拟出任何可能的声音，但实际中受到硬件，包括CPU和声卡处理能力的限制和技术，包括声音的反射、混响及阻塞等很难做到真实的限制，所以需要简化对象。根据声音的重要等级进行取舍，比如当有若干声音同时播放时，应该优先模拟人最能明显感受到的声音，次要的或者太微小的可以舍去。因此在采集飞行模拟机声音仿真系统的声音时，本发明灵活采用两种分类标准来更好的实现音频的采集与处理，从而更好地实现飞机模拟器音频系统的建立，其中一个人耳分类，还有一个是利用特征进行分类。

如下为按所需要的控制来划分的分类。

单次型——这种声音播放时，不循环，直接播放完成即可，如：开关开和合，如飞机起落架上锁声，塔台通讯等。

纯循环型——这种声音一直在循环，无多大变化，如：雷雨声，座舱内的电子仪器运作噪声等。

单次循环型——这种声音可明显分成三段，第一段播放完后，第二段再循环播放，最后播放第三段，如：警报声。

循环改音量型——这种声音与循环型近似相同，只是需要改变声音的音量如飞机外风的声音，音量由强到弱，或者由弱到强变化。

循环改频率型——这种声音与循环型也近似相同，只是需要改变声音的频率，如某些时候的跑道效应声音就是此类型。

循环改音量频率型——声音需要随飞行状态参数的变化而改变声音的频率和幅值，如：发动机转子的声音、螺旋桨声、进气、排气声等等。在飞行模拟机声音仿真系统中多以这种声音类型存在，同时也是仿真的主要类型。

针对上述分类标准，利用录音设备从真实飞机驾驶舱的沉浸式环境中提取出在不同飞行状态下飞机的每个部件的对应声音，将其进行分类标注，保存为*.wav，*.ogg等声音文件格式。对其进行特征提取与特征处理。对其进行傅里叶变化，将音频信号从时域转换到频域，提取频谱特征，提取出频谱质心，带宽，谱平坦度，谱熵值，MFCCs梅尔频率倒谱系数等特征值，对音频信号的特征数据采取最小-最大归一化和Z得分标准化的方法进行标准化与归一化，以消除不同音频之间的幅度差异。对于部分特征维度过高的音频信号，使用主成分分析（PCA）等方法降低维度，同时尽可能保留原始数据的重要信息。分析每个特征对分类的影响，去除冗余和不相关的特征，保留对分类最有助益的特征。如果某些类别的样本量远多于其他类别，可能需要进行过采样或欠采样，以避免模型对某一类别过度拟合。最终得到分类规范的音频文件。

步骤103：将所述分类音频数据进行短时傅里叶变换处理，得到频谱帧。

步骤104：对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧；所述神经网络包括循环神经网络和深度Q网络。

步骤104，具体包括：将所述频谱帧输入所述循环神经网络进行时序特征分析，得到音频数据的时序特征；将所述音频数据的时序特征输入所述深度Q网络进行降噪处理，得到处理后的频谱帧。

本发明选用强化学习中的Deep Q-Learning（DQN）算法，其中Q表示动作的价值，目标是找到累计价值和最高的序列。使用神经网络来表示策略函数，使得策略函数可以处理更多的状态和动作，并且根据动作得到的奖励值也更高。使用深度神经网络替代Q值策略函数，DQN擅长解决序列决策问题，它的输出是价值和最大的一整条路径。价值和最大的路径并不等价于每一步都选择动作价值最大的路径，因为有可能当前的动作价值大，但是之后路径上的动作价值小，所以累加起来的动作价值和反而小。DQN可以解决路径选择问题，选择一条整体价值和最大的路径。其中神经网络的参数为ω，公式如下所示。

s为环境的状态（state），a为在状态s下所采取的行动（action），ω代表Q函数模型的参数，这些参数在深度Q网络中通常是神经网络的权重和偏置。为参数化的Q函数，/>为最优Q函数，它给出了当环境处于状态s并且采取行动a时，能获得的最大期望回报（expected return）。

在深度神经网络中使用均方误差来定义损失函数，损失函数公式如下所示。

其中s'代表下一个状态，a'代表下一个动作，使用当前的Q值更新目标Q值，E为期望操作符，指在所有可能的状态转换上平均损失函数的值。r为奖励值，指智能体在执行行动a后立即获得的奖励。为折扣因子，用来降低未来奖励的现值。这个值在0和1之间，表示对未来奖励的重视程度。

根据奖励值更新Q值向量的值，公式如下所示。

其中，Q-network(a_n)表示由神经网络生成的第n个动作的Q值，r表示奖励值，Q_n表示加完奖励值后的第n个动作的Q值，使用新的Q值向量作为神经网络的标签。

梯度公式如下所示。

使用SGD随机梯度下降的方法，从样本中随机抽出一组，训练后按梯度更新一次，然后再抽取一组，再更新一次，在样本量及其大的情况下，不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型，依据上述梯度更新神经网络参数值，从而得到最优的Q值。

初始化记忆空间存放经验回放数据：本发明在训练神经网络时，先假设每一条训练数据都应该是独立同分布的，但是梯度公式生成过程中生成的数据有很强前后联系。如果依照梯度公式生成顺序产生的数据依次进行训练，数据相关性就不能满足随机梯度下降算法的基本条件，得到的神经网络损失值会强烈震荡。使用了经验回放就可以通过随机抽样的方法随机选择训练数据，减弱训练数据前后关联性，使得神经网络可以储存并且再利用过去的数据。

数据收集：将“经验回放缓冲区”定义为transition，将每次通过交叉路口时迭代的相应的s,a,r,s'存储到其中。将回放容器定义为replay buffer，存储M个transition。并定义如果超过M个transition时，删除最早进入容器的transition。将“容器容量”定义为buffer capacity，用M表示，其为一个超参数，设置为较大的数，可选105-106。

随机抽样：在训练模型时，从这个缓冲区中随机选取一批经验。本发明编程时直接选用python语言当中的numpy.random包里面的choice函数就能做到随机抽样。

模型更新：采用模型融合更新策略，利用已有的堆叠的融合策略机制对模型的预测结果进行处理，将多个模型的预测结果作为输入提供给另一个模型“元学习器”来生成最终预测。其中通过将原始模型的输出作为输入，并训练元学习器以最佳地组合这些输入来训练元学习器。不改变旧的模型，将旧模型的预测结果和新模型的预测结果进行融合以此得到随机抽样的经验且基于模型的历史性能找到最优的融合比例来更新模型的权重从而进行模型更新，以最大化整体预测的准确性和可靠性。最终使用验证集与测试集评估融合模型的性能。确保评估的公平性和准确性。

引入双网络结构：在标准的DQN中使用单神经网络进行训练时会出现过估计的问题。过估计问题会使得DQN网络的输出比真实值大，导致无法选中最优解，可能选中次优解。其中目标网络输出选择公式如下所示。

其中Y_t ^DQN表示目标网络输出，r_t+1表示t+1时刻的奖励值，γ表示0到1之间的系数，是折扣因子，用于计算未来奖励的当前价值，决定了未来奖励在计算总回报时的重要程度。为神经网络参数，/>为t+1时刻的状态。因为此公式表示在所有动作中选择一个最大的Q值和奖励值组成输出，所以每次求得的目标Q值都需要取最大值才能得到。每一次训练都是取一个mini-batch来进行训练，其中mini-batch指从整个训练数据集中随机选择的一个小批量样本集合。使用mini-batches进行训练是一种计算效率和内存使用效率的折中方法，同时也帮助提高模型的泛化能力。计算loss值时需要求平均值才能更新网络的参数，当求出所有Q值的最大值后再求平均，通常会比先求平均再求最大值要大，便会导致过估计。

本发明为了避免过估计这种情况的产生，使用两个神经网络，一个为Q神经网络，一个为目标神经网络，其中Q神经主网络是降噪主要模型，负责进行动作选择和产生策略。接收环境状态作为输入，并生成对应的动作输出。参数会随着训练的进行而不断更新。目标神经网络是主网络的副本，用于计算目标值。参数在训练过程中不会被更新，而是定期从主网络中复制参数。这种固定的目标网络可以减少训练过程中目标值的波动，并提供更稳定的训练信号。

本发明在设计相关DQN算法中使用了上述相同结构的两个神经网络，在训练过程中使用目标网络来计算目标Q值与价值函数，在其参数更新时设置一定的时差，并与主网络的输出进行比较，从而计算误差。使用误差来更新主网络的参数。通过交替更新主网络和目标网络，可以提高训练的稳定性和收敛性，降低了选择时的Q值和目标Q值的关联，提高了算法稳定性。

初始化Q神经网络和目标神经网络：引入强化学习算法，其可以使设定的智能系统从环境到行为映射的学习过程中整个环境的累计奖励值最大。在本发明中，定义机器为降噪方法，其处于环境E中，定义状态s为对当前环境的描述，此处为降噪后的时域频域参数，其集合构成状态空间S。动作a可以使状态s_i跳转到下一状态s_i+1，此处为修改参数进行的短时傅里叶降噪操作，其集合构成动作空间A。

生成奖励值进行迭代：根据当前状态和目标神经网络选择一个最优动作，根据执行的动作状态转移之后获得奖励值r，奖励值与相应的损失函数相关，以此来表示为体现本次迭代的效果好坏用来评价当前状态s下选择的动作a的好坏，如果更接近目标公式则为正，再并生成一个新公式模型并储存到记忆空间中。反之则为负，无法生成新公式模型，则从初始状态重新开始；

更新获得最优Q神经网络参数值：从记忆空间中随机取出保存的训练数据依据上述方法对Q神经网络进行训练。使用公式计算损失函数，使用公式/>计算梯度，并通过SGD随机梯度下降的方法，从样本中随机抽出一组，训练后按梯度更新一次，然后再抽取一组，再更新一次，在样本量及其大的情况下，不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型，依据上述梯度更新神经网络参数值，从而得到最优的Q值。每隔c步把Q神经网络的参数值赋给目标神经网络。不断重复直到生成一个有效的神经网络。

利用循环神经网络(RNN)进行特征提取：首先，分类后的音频数据输入到循环神经网络中。在这一步骤中，循环神经网络负责分析音频数据的时序特性，从而提取出对于后续降噪处理重要的特征。这个过程产生了一组音频特征数据。

深度Q网络(DQN)进行降噪处理：上述提取出的音频特征数据输入到深度Q网络。在这里，DQN利用其学习到的策略对音频特征进行降噪处理。DQN通过强化学习的方式优化其策略，以达到更高效的噪声降低效果。这个过程最终产生了降噪后的音频数据。

输出降噪后的音频：最后，处理过的音频数据输出，这些数据已经过DQN的降噪处理，因此相比原始输入音频，噪声水平显著降低。

总结来说，音频数据首先通过循环神经网络进行特征提取，然后这些特征被用于深度Q网络进行降噪处理，最终得到降噪后的音频输出。这种结合循环神经网络和深度Q网络的方法旨在有效地降低飞行模拟器中的噪声，提高声音仿真的质量。

步骤105：对所述处理后的频谱帧进行逆短时傅里叶变换，得到降噪后的音频。

模型与系数空间探索模块构建：本发明算法的模型空间探索模块是迭代搜索过程，归纳入本发明的短时傅里叶音频降噪，对输入的音频文件进行短时傅里叶处理。短时傅里叶降噪是一种常见的音频降噪方法，它基于短时傅里叶变换和频谱处理技术。该方法的基本思想是将音频信号分解为时域上局部的频谱信息，然后对每个频谱帧进行降噪处理，最后通过逆变换将处理后的频谱帧重新合成为降噪后的音频信号。

短时傅里叶分析的数学定义如下所示。

式中：X_m(k)为给定帧的复频谱；x(n)为离散声音信号；d为离散时间索引；ｋ为离散频率索引；N为快速傅里叶变换（FFT）长度；e_k=2πk/N为离散弧度频率；w(n)为分析窗函数；ｍ为帧数，等于0，1，2......；H为跳跃长度或窗前进长度。

首先，输入的音频文件经过短时傅里叶变换处理。这一步骤涉及将音频信号分解为一系列时间上局部的频谱帧。这为后续的降噪处理提供了必要的频谱信息。

接下来，每个频谱帧独立进行降噪处理。这些步骤可能包括对频谱帧的噪声估计、噪声消除和信号增强等处理。在这些步骤中，可能涉及到各种降噪算法和技术的应用，如Wiener滤波、谱减法等，以及专循环神经网络和深度Q网络。

完成对所有频谱帧的降噪处理后，这些处理过的频谱帧通过逆短时傅里叶变换重新合成为连续的音频信号。这一步骤确保了音频信号在时域上的完整性和连续性，产生最终的降噪后音频输出。

总结来说，音频数据首先经过短时傅里叶变换分解为频谱帧，然后这些频谱帧独立进行降噪处理，最后通过逆变换合成为降噪后的音频信号。在这一过程中，循环神经网络和深度Q网络可能在降噪处理的各个阶段发挥作用，以提高降噪效果。

在进行短时傅里叶降噪过程中，降噪好坏有4个重要参数决定：窗函数类型、窗长度M、FFT长度N以及跳跃长度H。

其中窗函数用于对信号进行分帧处理，主要包括矩形窗、汉宁窗、海明窗等，不同的窗函数选择会影响频谱分辨率和频谱泄漏。矩形窗具有较好的频谱分辨率，但会导致频谱泄漏；汉宁窗可以抑制频谱泄漏，但频谱分辨率相对较低。根据具体应用需求，选择合适的窗函数。本发明选择Kaiser窗，其由一个参数β控制，β越大，窗函数的主瓣宽度越窄，抑制能力越强。根据信号的特点和降噪要求，可以尝试不同的β值，并评估降噪效果，选择最佳的β值。此处模型构建时主要针对窗函数进行系数空间探索。

窗长度M是指每个分帧窗口的采样点数，其决定了STFT分析的时间分辨率。较短的窗长度可以提供更好的时间分辨率，但频率分辨率较低；较长的窗长度可以提供更好的频率分辨率，但时间分辨率较低。在选择窗长度时，需要权衡时间和频率分辨率的需求，通常情况下，窗长度为2的幂次方可以有效提高FFT计算的效率，可以尝试不同的窗长度值，并评估降噪效果，选择最佳的窗长度值。此处模型构建时主要针对窗函数进行系数空间探索。

跳跃长度H是指相邻分帧窗口之间的采样点数。较小的跳跃长度可以提供更好的时间分辨率，但计算复杂度增加；较大的跳跃长度可以减少计算复杂度，但时间分辨率降低。跳跃长度通常与窗长度相关联，通常选择一定的重叠比例，如50%。根据信号的变化速度和计算资源的限制，可以选择适当的跳跃长度。通过尝试不同的值以此来评估降噪效果，选择最佳的跳跃长度值。此处模型构建时主要针对窗函数进行系数空间探索。

FFT长度N决定了频谱的分辨率。较大的FFT长度可以提供更高的频率分辨率，但计算复杂度也增加。通常情况下，FFT长度选择为2的幂次方，以提高计算效率。此处模型构建时主要针对窗函数进行系数空间探索。

本发明算法的系数空间探索模块主要针对四个参数对于短时傅里叶变化过程中的影响进行，在系数空间中为每一个公式模型使用PSO算法生成一组最合适的系数，并根据公式模型和对应系数计算适应度值，如果适应度值小于最小的历史适应度值，则此公式模型和对应系数生成的公式为最优公式。每一代通过MCTS算法在模型空间中生成一条公式路径，在生成公式路径过程中使用UCB1算法综合如图1所示的蒙特卡洛树的历史搜索信息和强化学习训练模块的动作输出信息。除此之外，蒙特卡洛树搜索拥有剪枝操作，避免重复搜索同一区域，提高了搜索效率，避免陷入局部最优。其中，公式模型指的是与STFT参数相关的模型，而最优的公式模型是指通过PSO优化参数找到的模型。

数据集训练：首先设置符号回归模型，由add：加法、sub：减法、mul：乘法、div：除法、sqrt：平方根、log：对数，abs：绝对值、neg：相反数、inv：倒数、max：最大值、min：最小值、sin：正弦(弧度)、cos：余弦(弧度)、tan：正切(弧度)等运算函数，x，y等变量和π,e等常量组合而成。

随机生成600000个不同的公式模型。

针对每个公式模型，随机生成20组系数,系数范围为[0,1]。每个随机生成的公式模型包含上文中的18种等基本符号种类，并且每个公式模型最多有7个基本符号的作用位置（非叶节点）可以选择。其中正确动作选择对应的标签为1，其余动作选择对应的标签为0。依据上述方法，最终生成数万条训练数据。

评估并部署模型：根据信噪比、主观评分等方式对模型训练的降噪效果进行评估，达到降噪效果后获得修改后的短时频谱后，通过计算短时傅里叶逆变化重构合成最终的音频文件与声谱图，将其归纳入音频数据库中，并依次方式继续进行模型的部署应用，用于其余音频信息的降噪工作。

在音频降噪过程中使用了深度符号回归的系数拟合调参算法与短时傅里叶降噪方法相结合，一方面避免直接使用神经网络深度学习来实现黑盒降噪的计算量浪费，也避免了获取大量数据集的难度。另一方面没有一味只使用短时傅里叶降噪的方法，避免了大量人工试听进行调参的步骤，省时省力。

本发明与现有技术相比，具有以下有益效果。

1.利用短时傅里叶分析来进行降噪，将音频信号分解为时域上局部的频谱信息，然后对每个频谱帧进行降噪处理，最后通过逆变换将处理后的频谱帧重新合成为降噪后的音频信号。通过分析频域信息，可以准确地估计噪声的能量和分布，并针对性地对噪声进行抑制。可以大幅降低噪声对原始音频的影响，提高音频的清晰度和质量。

2.结合了深度符号回归的机器学习算法来进行自适应调参，其结合短时傅里叶的方法，输入含噪音频信号进行分解得到功率谱密度，进行频谱分析从而重构得到新的音频信号，通过信噪比等比照因素来进行学习调整相应短时傅里叶变化的参数，极大削减了现有技术中只进行短时傅里叶降噪时通过多次人耳主观试听来调参的时间与精力，直接避免了获取相应的含噪音频与干净音频困难的难点，相比传统的线性回归方法，提供更准确的预测结果，自适应性更强，具有一定泛化能力，适用性也相应提高，具有极强的推广性，可应用于有降噪需求的各行各业。极大减少了构建传统卷积神经网络进行深度学习从而降噪所需的训练时间与计算资源，真正实现低成本高效降噪。

3.符号回归建模一方面从纯数据驱动的层面上摆脱了对模型有先验知识的依赖，仅从数据角度分析变量之间的关系；另一方面，符号回归得到模型是解析的，这使得基于模型的控制算法能够应用；最后，符号回归的数据训练量远小于机器学习的数据训练量，能够在较短的时间内得到准确的数学模型。

本发明还提供一种飞机模拟器声音降噪系统，包括：获取模块，用于获取飞机模拟器声音系统的声音数据。分类模块，用于对所述声音数据进行分类，得到分类音频数据。短时傅里叶变换模块，用于将所述分类音频数据进行短时傅里叶变换处理，得到频谱帧。降噪模块，用于对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧；所述神经网络包括循环神经网络和深度Q网络。逆短时傅里叶变换模块，用于对所述处理后的频谱帧进行逆短时傅里叶变换，得到降噪后的音频。

作为一种可选地实施方式，分类模块具体包括：分类单元，用于按照录音设备对声音数据进行分类，得到初始分类结果；特征提取单元，用于对所述初始分类结果进行特征提取，得到特征数据；标准化和归一化处理单元，用于对所述特征数据进行标准化和归一化处理，得到标准音频信号；主成分分析单元，用于对所述标准音频信号进行主成分分析，得到分类音频数据。

作为一种可选地实施方式，降噪模块具体包括：时序特征分析单元，用于将所述频谱帧输入所述循环神经网络进行时序特征分析，得到音频数据的时序特征；降噪单元，用于将所述音频数据的时序特征输入所述深度Q网络进行降噪处理，得到处理后的频谱帧。

本发明提出了一种基于短时傅里叶变化的和频谱分析的降噪方法，引入了深度符号回归的机器学习算法，解决了短时傅里叶分析时通过人耳反复试听来调参耗时长，效率低等问题的方法，从而实现低成本，易实现的音频信号降噪的目的。

通过结合循环神经网络与强化学习应用于短时傅里叶音频降噪中，极大削减了现有技术中只进行短时傅里叶降噪时通过多次人耳主观试听来调参的时间与精力，直接避免了获取相应的含噪音频与干净音频困难的难点，通过相应评估指标的引入，利用强化学习训练来自适应调参，通过修改参数来使得降噪后的音频数据达到拟合的程度。另外通过评估指标的对比来调参的模型训练对训练数据的需求大大减小，因此过拟合的可能性更小，对降噪的应用场景进行替换后，适用性也相应提高，具有极强的推广性，可应用于有降噪需求的各行各业。同时也极大减少了构建卷积神经网络进行深度学习，设计含噪信号的端为输入，设计干净信号的端为输出的端到端模型的硬阈值降噪所需的训练时间与计算资源，极大提高了降噪的效果。

本发明涉及到低成本高性能，可实现多种机型使用的从混合声源中提取并降噪所需特定的音频声源信号的飞行模拟器声音仿真系统设计领域。具体讲，利用短时傅里叶变化与频谱处理技术实现短时傅里叶降噪，通过深度符号回归技术，省去了人耳反复试听从而调参的步骤，通过对音频信号降噪前后的信噪比、语音失真度、声道畸变等评估指标进行对比从而设置相应算法，基于循环神经网络和强化学习的方法进行模型训练实现自适应调参，以此实现短时傅里叶变化时Kaiser窗，窗长度，FFT长度以及跳跃长度的参数值的理想范围的确定从而节省大量的成本，并设计相对应的滤波器进行滤波降噪，实现飞行模拟器不同类型声音的提取工作。

本发明使用的声音信号分析和处理方法可以很方便地进行更新和修改，并且可以很容易地移植到诸如汽车、坦克和列车等其他模拟器系统中。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种飞机模拟器声音降噪方法，其特征在于，包括：

获取飞机模拟器声音系统的声音数据；

对所述声音数据进行分类，得到分类音频数据；

将所述分类音频数据进行短时傅里叶变换处理，得到频谱帧；

对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧；所述神经网络包括循环神经网络和深度Q网络；

对所述处理后的频谱帧进行逆短时傅里叶变换，得到降噪后的音频。

2.根据权利要求1所述的飞机模拟器声音降噪方法，其特征在于，对所述声音数据进行分类，得到分类音频数据，具体包括：

按照录音设备对声音数据进行分类，得到初始分类结果；

对所述初始分类结果进行特征提取，得到特征数据；

对所述特征数据进行标准化和归一化处理，得到标准音频信号；

对所述标准音频信号进行主成分分析，得到分类音频数据。

3.根据权利要求1所述的飞机模拟器声音降噪方法，其特征在于，对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧，具体包括：

将所述频谱帧输入所述循环神经网络进行时序特征分析，得到音频数据的时序特征；

将所述音频数据的时序特征输入所述深度Q网络进行降噪处理，得到处理后的频谱帧。

4.一种飞机模拟器声音降噪系统，其特征在于，包括：

获取模块，用于获取飞机模拟器声音系统的声音数据；

分类模块，用于对所述声音数据进行分类，得到分类音频数据；

短时傅里叶变换模块，用于将所述分类音频数据进行短时傅里叶变换处理，得到频谱帧；

降噪模块，用于对所述频谱帧利用神经网络进行降噪处理，得到处理后的频谱帧；所述神经网络包括循环神经网络和深度Q网络；

逆短时傅里叶变换模块，用于对所述处理后的频谱帧进行逆短时傅里叶变换，得到降噪后的音频。

5.根据权利要求4所述的飞机模拟器声音降噪系统，其特征在于，分类模块具体包括：

分类单元，用于按照录音设备对声音数据进行分类，得到初始分类结果；

特征提取单元，用于对所述初始分类结果进行特征提取，得到特征数据；

标准化和归一化处理单元，用于对所述特征数据进行标准化和归一化处理，得到标准音频信号；

主成分分析单元，用于对所述标准音频信号进行主成分分析，得到分类音频数据。

6.根据权利要求4所述的飞机模拟器声音降噪系统，其特征在于，降噪模块具体包括：

时序特征分析单元，用于将所述频谱帧输入所述循环神经网络进行时序特征分析，得到音频数据的时序特征；

降噪单元，用于将所述音频数据的时序特征输入所述深度Q网络进行降噪处理，得到处理后的频谱帧。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至3中任意一项所述的方法。

8.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至3中任意一项所述的方法。