CN110880313A

CN110880313A - 一种基于降噪反馈输出当前环境对抗噪声的控制方法及系统

Info

Publication number: CN110880313A
Application number: CN201911238654.7A
Authority: CN
Inventors: 金春晓
Original assignee: Suzhou Huayin Electronic Technology Co Ltd
Current assignee: Suzhou Huayin Electronic Technology Co ltd; Xuzhou XCMG Road Construction Machinery Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-03-13
Anticipated expiration: 2039-12-06
Also published as: CN110880313B

Abstract

本发明公开了一种基于降噪反馈输出当前环境对抗噪声的控制方法，其基于强化学习实现工程车的主动降噪，包括：a：基于初始策略信息生成与所述初始策略信息相匹配的对抗噪声；b：基于对抗噪声所改变的当前环境以及奖励函数确定最终策略信息。本发明的主要思想是通过驾驶舱内置的声音采集系统，拾取环境中的各种噪声，并对噪声进行能量检测，获取各个频率下的噪声分布，以及各频点的增益及相位信息，并通过深度神经网络提取特征，并生成对当前噪声有抵消作用的对抗噪声序列，系统将会根据该序列通过扬声器发出与原始噪声反向的对抗噪声，以达到实时抑制噪声的效果。本发明使用简单、操作方便，具有极高的商业价值。

Description

一种基于降噪反馈输出当前环境对抗噪声的控制方法及系统

技术领域

本发明属于降噪技术领域，特别涉及一种基于降噪反馈输出当前环境对抗噪声的控制方法及系统。

背景技术

车辆运行过程中车内噪音是影响用户开车体验的重要因素，用户在噪音比较大时往往会听不到外界的提示音以及车内其他装置的提示音，甚至听不到副驾或后座的人的声音。

而针对车内噪音，主要是车辆发动机产生，传播至车厢内。车辆生产商通过物理降噪的方式减少车厢内的噪音。而物理降噪往往是通过在车内设置隔音材料，来隔离噪音，但物理降噪的方式会导致车辆重量增加，从而增加油耗。除了物理降噪，也有部分商家采用主动降噪技术来减少车辆噪音，主动降噪是通过麦克风采集车辆内的噪音，经过处理后，利用车厢内的消音扬声器发出与车内噪音频率相对应的抑噪声波来达到降噪的目的。

针对压路机施工环境中的一些稳态噪声，多数处于低频段，包括本机器发出的引擎声、压路声、其他工程机械发出的轰鸣声，这些噪声夹杂在一起，对驾驶人员带来比较大的干扰。如果环境中存在一些提示声(往往都是非稳态声音)，被夹杂在这些稳态噪声中，在很大程度上会被掩盖，从而降低对驾驶人员的提示效果。针对本机引擎发出的噪声，可通过引擎声抑制技术进行消除；然而针对非本机引擎发出的噪声，却没有一种能够很好的对其进行消除的办法。

目前并没有一种能够通过主动学习来实现降噪的技术方案，具体地，并没有一种基于降噪反馈输出当前环境对抗噪声的控制方法及系统。

发明内容

针对现有技术存在的技术缺陷，本发明的目的是提供一种基于降噪反馈输出当前环境对抗噪声的控制方法及系统，根据本发明的一个方面，提供了一种基于降噪反馈输出当前环境对抗噪声的控制方法，其基于强化学习实现工程车的主动降噪，包括：

a：基于初始策略信息生成与所述初始策略信息相匹配的对抗噪声；

b：基于对抗噪声所改变的当前环境以及奖励函数确定最终策略信息。

优选地，所述步骤a包括：

a1：确定采样频段；

a2：基于所述初始策略与采样频段相匹配，确定与所述初始策略相对应的对抗噪声。

优选地，在所述步骤a中，所述初始策略信息至少包括系统基于当前环境的随机量和/或用户基于当前环境的输入量。

优选地，在所述步骤a1中，所述确定采样频段基于如下公式：S_t＝[x₁，x₂，…x_n]，其中，所述S_t为t时刻噪声信号采样特征向量，所述X为单一采样频率点响应强度，所述n为采样频率点总数。

优选地，在所述步骤a2中，所述确定与所述初始策略相对应的对抗噪声基于如下公式：

π_a(S_t)＝f_c(S_t)+f_s(S_t)，其中，所述π_a为对抗策略，所述(S_t)为t时刻噪声信号，所述f_c为对抗的主要分量，用于抵消转速关系内的阶次噪声，所述f_s为对抗的辅助分量，用于应对无法预测的周期性噪声。

优选地，所述采样频段为0Hz～300Hz。

优选地，所述步骤b至少包括：

b1：通过扬声器发出所述对抗噪声；

b2：确定对抗噪声所改变的当前环境的音频信号；

b3：基于所述奖励函数确定最终策略信息。

优选地，在所述步骤b3中，所述奖励函数通过如下公式确定：

其中，所述r_t为在状态s_t时采取动作a_t获得的奖励，s_t为t时刻噪声信号，a_t为根据对抗策略采取的对抗动作。

优选地，所述最终策略信息至少包括用户基于对抗噪声所改变的当前环境的潜在输入趋势。

优选地，还包括步骤c：基于最终策略信息调整当前环境的输入量。

根据本发明的另一个方面，提供了一种基于降噪反馈输出当前环境对抗噪声的控制系统，至少包括：

在车辆内部设置的声波采集器，其用于采集车辆音频信号；

一单片机，所述单片机用于生成对抗噪声；

一扬声器，所述扬声器用于释放所述对抗噪声。

优选地，还包括一手动调节装置，其用于调整当前环境的输入量。

优选地，所述声波采集器为麦克风。

本发明公开了一种基于降噪反馈输出当前环境对抗噪声的控制方法，其基于强化学习实现工程车的主动降噪，包括基于初始策略信息生成与所述初始策略信息相匹配的对抗噪声；基于对抗噪声所改变的当前环境以及奖励函数确定最终策略信息。本发明通过主动学习的方式产生降噪策略，这将不依赖人工的先验经验，而能够通过设定奖励函数的方式，对含有非常规发动机噪声的混合噪声进行分析并在试验中完成降噪策略的学习。本发明的主要思想是通过驾驶舱内置的声音采集系统，拾取环境中的各种噪声，并对噪声进行能量检测，获取各个频率下的噪声分布，以及各频点的增益及相位信息，并通过深度神经网络提取特征，并生成对当前噪声有抵消作用的对抗噪声序列，系统将会根据该序列通过扬声器发出与原始噪声反向的对抗噪声，以达到实时抑制噪声的效果。本发明使用简单、操作方便，能够很好的消除外界噪声，具有极高的商业价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出了本发明的具体实施方式的，一种基于降噪反馈输出当前环境对抗噪声的控制方法的具体流程示意图；

图2示出了本发明的第一实施例的，基于初始策略信息生成与所述初始策略信息相匹配的对抗噪声的具体流程示意图；

图3示出了本发明的第二实施例的，基于对抗噪声所改变的当前环境以及奖励函数确定最终策略信息的具体流程示意图；以及

图4示出了本发明的另一具体实施方式的，一种基于降噪反馈输出当前环境对抗噪声的控制系统的模块连接示意图。

具体实施方式

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明。

图1示出了本发明的具体实施方式的，一种基于降噪反馈输出当前环境对抗噪声的控制方法的具体流程示意图，本领域技术人员理解，在本发明中，主要用于针对压路机来对本申请所记载的技术方案进行说明，其主要是因为压路机在施工过程中会产生大量的稳态噪声，而针对压路机施工环境中的一些稳态噪声，多数处于低频段，包括压路机自身发出的引擎声，同时还包括压路声、其他工程机械发出的轰鸣声，这些噪声夹杂在一起，对驾驶人员带来比较大的干扰，如果环境中存在一些提示声(往往都是非稳态声音)，被夹杂在这些稳态噪声中，在很大程度上会被掩盖，从而降低对驾驶人员的提示效果，而本发明所要消除的就是压路声、其他工程机械发出的轰鸣声等等这些外界噪声。

本领域技术人员理解，虽然本发明主要针对于压路机，但本申请所记载的具体实施方案包括但不限于压路机，还可以为其他车辆，例如卡车、轿车等等，这些都不影响本发明所记载的技术方案，在此不予赘述。

为降低工程车辆驾驶舱内的噪声对人体的损害，本发明基于强化学习方法，通过从大量试验中学习主动降噪策略优化过程中的正负反馈，不断更新迭策略方案，最终形成了对实时噪声环境具有感知能力并能输出针对当前环境的对抗噪声序列的最优策略方案。结合强化学习的技术方案，本发明提供了一种基于降噪反馈输出当前环境对抗噪声的控制方法，其基于强化学习实现工程车的主动降噪，包括：

首先，进入步骤S101，基于初始策略信息生成与所述初始策略信息相匹配的对抗噪声，在所述步骤S101中，所述初始策略信息至少包括系统基于当前环境的随机量和/或用户基于当前环境的输入量，本领域技术人员理解，工程车辆噪声原理是发动机运动条件下，噪声基频稳定，和发动机转速相关，均为发动机转速的倍频，因此可通过引擎声抑制技术进行消除，主动降噪的原理即是通过发出相对应的反向噪声以抵消发动机转速相关的倍频，而传统降噪方案将根据预先输入的RPM转速信号，或者根据CAN通讯接受到圆周运动的设备的转速，推测出发生的噪声频段。通过频率、幅度相同且夹角90°的正弦、余弦信号的组合，产生可变相位的对抗噪声。

故在本步骤中，当前环境的随机量可以为系统随机释放的用于对当前环境进行降噪处理的对抗噪声，而在另一个实施例中，所述对抗噪声还可以是工作人员根据现场噪声的情况，并结合实际操作经验而给出的输入量，进一步地，根据所述输入量得出对抗噪声。

而在另一个较为优选地实施例中，驾驶舱内环境复杂，或存在不在转速关系内的周期信号，传统的降噪方案无法解决。例如周边其他车辆的发动机噪声，其他车辆的圆周运动设备的周期噪声。针对非本机引擎发出的噪声，可通过两者相结合，可以达到更好的驾驶舱降噪效果。对于环境中非本机引擎发出的一些稳态噪声，多数都集中在相对较窄的频点范围内，主要有30Hz，80Hz，150Hz三个频点，通过扬声器发出与三个频点噪声相对应的对抗噪声，与环境当中的多频点噪声叠加后，相互之间进行抵消。

然后，进入步骤S102，基于对抗噪声所改变的当前环境以及奖励函数确定最终策略信息，本领域技术人员理解，本步骤最终的结果是为了通过扬声器发出的多频点对抗噪声，与环境当中的多频点噪声叠加后，相互之间进行抵消，最后再由麦克风采集相互作用后的音频信号，所述相互作用后的音频信号即为对抗噪声所改变的当前环境，并更新模拟声合成器的输入参数，即结合所述奖励函数更新所合成的模拟噪声，再通过扬声器播出，最终达到一个稳定的状态，即在本发明中所述最终策略信息至少包括用户基于对抗噪声所改变的当前环境的潜在输入趋势。

最后，进入步骤S103，基于最终策略信息调整当前环境的输入量，进一步地，在步骤S102中，所述最终策略信息至少包括用户基于对抗噪声所改变的当前环境的潜在输入趋势，所述最终策略信息还包括根据所述潜在输入趋势而生成的控制信息，所述控制信息可以使所述工作人员知晓如何输入当前环境的输入量从而对当前环境进行调整，使当前环境的噪声能够趋近于最小。

本发明中使用的方法为Actor-Critic，是强化学习方法中为了解决从连续动作中选取合适动作的Q-learning与PolicyGradient的改进方法。其中，Actor即承担着生成对抗噪声的角色，会根据当前的state和policy选择执行某个action，而Critic则承担着对当前噪声进行评估的工作。在实际系统中，Actor和Critic都能用不同的神经网络或其他模型来代替。在初始状态时，Actor并不知道如何生成恰当的对抗噪声，Critic也不知道如何量化评估当前噪声。但通过噪声环境的变化，将生成奖励，依据是action是否使得上一时刻的噪声得到了抑制，Critic通过学习环境和奖励之间的关系,能看到现在所处状态的潜在奖励,所以用它来指点Actor就能使Actor每一步都在更新。

图2示出了本发明的第一实施例的，基于初始策略信息生成与所述初始策略信息相匹配的对抗噪声的具体流程示意图，图2是对步骤S101的详细描述，具体地，所述步骤S101包括：

首先，进入步骤S1011，确定采样频段，在这样的实施例中，所述采样频段为0Hz～300Hz，本领域技术人员理解，在本发明中可消除的噪声频率范围为20Hz至250Hz，采样分辨率为1Hz，而所述采样频段是根据大量实验数据而确定的每个频段所对应的噪声数据。

然后，进入步骤S1012，基于所述初始策略与采样频段相匹配，确定与所述初始策略相对应的对抗噪声，在这样的实施例中，所述初始策略将结合包括但不限于图1中示出的三种技术方案来确定，将所述初始策略所对应的输入量与所述采样频段中相应地频段相匹配，进而可以得出与所述初始策略相对应的对抗噪声。

进一步地，在所述步骤S1011中，所述确定采样频段基于如下公式：S_t＝[x₁，x₂，…x_n]，其中，所述S_t为t时刻噪声信号采样特征向量，所述X为单一采样频率点响应强度，所述n为采样频率点总数。

进一步地，在所述步骤S1012中，所述确定与所述初始策略相对应的对抗噪声基于如下公式：π_a(S_t)＝f_c(S_t)+f_s(S_t)，所述π_a为对抗策略，所述(S_t)为t时刻噪声信号，所述f_c为对抗的主要分量，用于抵消转速关系内的阶次噪声，所述f_s为对抗的辅助分量，用于应对无法预测的周期性噪声。

本领域技术人员理解，由于单一时刻(时间段)内，发动机转速稳定，噪声数据表现为一条转速为常值的水平线，即一个关于频率的一维连续信号，状态定义为单一时刻(时间段)内采集到的噪声样本的离散采样。

图3示出了本发明的第二实施例的，基于对抗噪声所改变的当前环境以及奖励函数确定最终策略信息的具体流程示意图，进一步地，所述步骤S102至少包括：

首先，进入步骤S1021，通过扬声器发出所述对抗噪声，在这样的实施例中，通过所述扬声器发出的是步骤S101中确定的与所述初始策略相对应的对抗噪声，即用于与环境噪声相抵消的对抗噪声。

然后，进入步骤S1022，确定对抗噪声所改变的当前环境的音频信号，在环境噪声与对抗噪声进行抵消之后，并不会完全消除当前环境中的所有噪声，但会改变当前环境中的噪声，在一个优选地实施例中，可以抵消大部分显著噪声，但而其他的实施例中，可能并不会产生显著效果，甚至增大噪声，而本步骤需要确定的即为是否会对当前环境噪声产生一定的影响，是积极影响还是消极影响，最后，通过声音录入设备采集并确定对抗噪声所改变的当前环境的音频信号。

最后，进入步骤S1023，基于所述奖励函数确定最终策略信息，本步骤的目的是为了基于对对抗噪声所改变的当前环境的音频信号与之前的环境噪声进行对比判断，判断是否对改善噪声有显著效果，如果是，则确定其调整方向是正确的，如果不是，则可以朝着调整的相反的方向或者其他方向调整，即最终需要确定最终策略信息，进一步地，在所述步骤S1023中，所述奖励函数通过如下公式确定：

在一个优选地实施例中，在一次交互中，用户通过观察环境或不观察环境中当前的状态，参照当前的策略选择了一个动作，环境因此产生了变化，状态改变，同时反馈给用户一个奖励。通过不断的获得奖励或惩罚，用户学习到不同动作在特定状态下产生的正负激励，为了获得整个序列的最大化奖励，用户会不断更新选择动作的策略，并在下一次参照新策略执行相应的动作。通过多个回合的更新，代理人将习得最优化的策略。

图4示出了本发明的另一具体实施方式的，一种基于降噪反馈输出当前环境对抗噪声的控制系统的模块连接示意图。本发明公开了一种基于降噪反馈输出当前环境对抗噪声的控制系统，具体地，本发明采用图1至图3中示出的控制方法，并结合图4所示出对基于降噪反馈输出当前环境对抗噪声的控制系统进行了详细描述，其中，还至少包括在车辆内部设置的声波采集器1，所述声波采集器为麦克风，其用于采集车辆音频信号，所述声波采集器可以设置在车辆内部的任意位置，而在其他较为特殊的实施例中，还可以设置在外界干扰比较大的车辆一侧的外部，这都不影响本发明的具体实施方案。

所述控制系统还包括一单片机2，所述单片机用于生成对抗噪声，本领域技术人员理解，本发明中所有涉及到数据及信号的收发、处理、运算等等操作，都属于单片机的工作范围，本发明旨在保护一种能够解决本发明技术方案的单片机，即可以参考前述图1至图3中所记载的控制方法用以理解所述单片机，在此不予赘述。

所述控制系统还包括一扬声器3，所述扬声器用于释放所述对抗噪声，所述扬声器用于接收所述单片机的指令、信息，并释放所述对抗噪声。

所述控制系统还包括一手动调节装置4，其用于调整当前环境的输入量。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于降噪反馈输出当前环境对抗噪声的控制方法，其基于强化学习实现工程车的主动降噪，其特征在于，包括：

2.根据权利要求1所述的控制方法，其特征在于，所述步骤a包括：

a1：确定采样频段；

3.根据权利要求2所述的控制方法，其特征在于，在所述步骤a中，所述初始策略信息至少包括系统基于当前环境的随机量和/或用户基于当前环境的输入量。

4.根据权利要求2所述的控制方法，其特征在于，在所述步骤a1中，所述确定采样频段基于如下公式：S_t＝[x₁，x₂，…x_n]，所述S_t为t时刻噪声信号采样特征向量，所述X为单一采样频率点响应强度，所述n为采样频率点总数。

5.根据权利要求2所述的控制方法，其特征在于，在所述步骤a2中，所述确定与所述初始策略相对应的对抗噪声基于如下公式：

6.根据权利要求2所述的控制方法，其特征在于，所述采样频段为0Hz～300Hz。

7.根据权利要求1所述的控制方法，其特征在于，所述步骤b至少包括：

b1：通过扬声器发出所述对抗噪声；

b2：确定对抗噪声所改变的当前环境的音频信号；

b3：基于所述奖励函数确定最终策略信息。

8.根据权利要求6所述的控制方法，其特征在于，在所述步骤b3中，所述奖励函数通过如下公式确定：

9.根据权利要求2所述的控制方法，其特征在于，所述最终策略信息至少包括用户基于对抗噪声所改变的当前环境的潜在输入趋势。

10.根据权利要求1所述的控制方法，其特征在于，还包括步骤c：基于最终策略信息调整当前环境的输入量。

11.一种基于降噪反馈输出当前环境对抗噪声的控制系统，其采用权利要求1至10中任一项所述的控制方法，其特征在于，至少包括：

在车辆内部设置的声波采集器(1)，其用于采集车辆音频信号；

一单片机(2)，所述单片机(2)用于生成对抗噪声；

一扬声器(3)，所述扬声器(3)用于释放所述对抗噪声。

12.根据权利要求11所述的控制系统，其特征在于，还包括一手动调节装置(4)，其用于调整当前环境的输入量。

13.根据权利要求11所述的控制系统，其特征在于，所述声波采集器(1)为麦克风。