CN106408087A

CN106408087A - 面向水下弱信号检测的强化学习自适应随机共振方法

Info

Publication number: CN106408087A
Application number: CN201610826493.3A
Authority: CN
Inventors: 袁飞; 季舒瑶; 程恩; 陈柯宇; 朱逸
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2016-09-18
Filing date: 2016-09-18
Publication date: 2017-02-15

Abstract

面向水下弱信号检测的强化学习自适应随机共振方法。1计算进入随机共振系统前的信号信噪比；2对随机共振系统参数a，b的可能解进行编码，形成基因空间并分割形成n个子空间；3创建n个Agent，将n个子空间作为n个Agent的行动空间，并对每个Q值初始化；4确定Q‑Learning行动

Description

面向水下弱信号检测的强化学习自适应随机共振方法

技术领域

本发明涉及水声通信，是一种面向水下弱信号检测的强化学习自适应随机共振方法。

背景技术

水声通信信道是一个噪声干扰严重的时变、空变、频变的衰落信道，信号经过水声信道后常常被大量的噪声或干扰淹没变为微弱信号。而水声信号的检测技术不管在理论研究还是实际工程甚至国防建设中都具有重要的意义和应用价值。因此，研究微弱信号的检测方法对水声通信的进步和发展很有必要。

一些传统的信号检测方法如匹配滤波、相干检测、经典谱分析等都采用抑制噪声的方法，虽然在一定的条件下能达到很好的效果，但是往往在抑制噪声的同时，使信号也受到了损害。因此在水声信道的强噪声背景下，尤其对与信号同频带的带内噪声，这些信号检测技术就束手无策了。

随机共振(Stochastic Resonance,SR)是最近30年来才发展起来的一种检测微弱信号的新方法。它最早是于1981年由研究古气象冰川问题的意大利学者Benzi等人所提出的，用来解释古气象学中暖气候期和冰川期交替出现的现象。它和传统检测方法的不同之处就在于它不是为了滤除噪声，而是最大限度地利用噪声，通过非线性系统将噪声能量转化为信号能量，从而起到增强弱信号的效果，这为水声信道中低信噪比环境下的信号检测提供了新的思路。

一般的理论研究思路往往都是对已知信号逐步增加噪声强度以达到随机共振的起振条件。然而在水声通信实际应用中，信号和噪声是未知的，这就需要一个系统能够自主调整参数实现随机共振。在研究了信号、噪声以及系统三者之间的关系后，本发明利用强化学习结合遗传算法的工作机制来实现系统参数的自适应调整。

强化学习(Reinforcement Learning,RL)是一种目标驱动的自适应能力很强的机器学习技术。一个强化学习Agent在与环境交互时，能根据环境的反馈来调整自己的行动策略，如果Agent的某个行动策略导致了环境正的奖赏，则以后产生这个行动策略的趋势便会加强，反之，如果Agent的某个行动策略导致了环境负的奖赏，则以后产生这个行动策略的趋势便会减弱。

遗传算法(Genetic Algorithm,GA)是一种模仿生物进化的自然选择搜索全局最优解的算法，通过对可行解编码产生初代种群，按照适者生存和优胜劣汰的原则，根据个体适应度大小选择更优秀的个体，借助遗传算子进行组合交叉和变异，逐代产生越来越好的近似解。达到终止条件后，输出具有最大适应度的个体作为最优解。在本发明中，该算法以信噪比(Signal to Noise Ratio,SNR)作为适应度评价指标。信噪比自施密特触发器首次将其引入后，就成为判定非线性系统产生随机共振现象最常用的依据。线性调频(LinearFrequency Modulation,LFM)信号由于其强抗干扰和衰落、抗多普勒频移以及极低的截获率的优良性能而被广泛用于水声通信中。对LFM进行信噪比估算的研究自然就成为了本发明的另一个重点。

发明内容

本发明的目的是提供一种面向水下弱信号检测的强化学习自适应随机共振方法。

本发明包括如下步骤：

1)计算经过水声信道后进入随机共振系统前的信号输入信噪比；

2)对随机共振系统参数a，b的可能解进行编码，形成初始化的基因空间，对基因空间进行分割形成n个子空间；

3)创建n个Agent，并且将n个子空间作为n个Agent的行动空间，并对每个Q值初始化；

4)利用ε-greedy策略确定Q-Learning行动得到经验知识和训练例；

5)每次计算信噪比，作为个体适应度评价，同时作为环境奖赏来更新Q值并进行精英保留；

6)判断是否满足终止条件，若满足，则输出此轮参数a，b作为最优参数；若不满足，则再从行动选择步骤4)开始重复；

7)用最优参数a，b实现最优随机共振效果，对系统输出信号计算输出信噪比，与输入信噪比比较有所增大，证明微弱信号得到增强。

本发明提供一种利用基于强化学习的自适应随机共振系统检测水下弱信号的方法。利用强化学习的机制，结合遗传算法得到不同噪声环境下能够实现随机共振所需要的准确的系统参数，从而实现水下弱信号的增强。

鉴于GA与RL的相似性和各自的优良特性，可以将它们结合起来，进一步改善它们的搜索性能，更准确地确定可以实现当前环境下随机共振的系统参数。

本发明以线性调频信号作为水下传输信号，通过水声信道环境后接收到水下弱信号。将强化学习和遗传算法相结合，得到可以实现当前环境下随机共振的系统参数，也就得到适合该信号和噪声环境的随机共振系统。最后，接收到的水下弱信号通过该随机共振系统实现信号的增强。总之，本发明利用基于强化学习机制的遗传算法，针对不同的应用环境自适应调节系统参数，达到信号、噪声及非线性系统三者的最佳相对状态，实现随机共振，增强弱信号。

附图说明

图1为在双稳态随机共振系统中布朗粒子在一个非线性势场U(x)作用下进行趋势运动曲线图。

具体实施方式

在双稳态随机共振系统中，布朗粒子在一个非线性势场U(x)作用下进行趋势运动，曲线图见图1。

势函数(令a＝1，b＝1)

对势函数求导得到外势场力，即

f(x)＝-U′(x)＝ax-bx³ (2)

外界驱动力由外势场力f(x)，驱动信号s(t)，噪声n(t)三部分组成，即

令f(x)＝0，可得到方程(2)的三个解：

即势函数的极大值和极小值点。

1、无外力驱动时，粒子在处有两个稳态。给定初值x₀＞0(或x₀＜0)，粒子要趋向(或)的定态解。并且不会离开该定态。当初值为x₀＝0时，粒子将永远停留在x＝0这一不稳定定态。

2、当仅有噪声而无周期驱动力时，粒子随噪声的驱动在双稳态之间跃迁，粒子跃迁需要的垒高为ΔV＝a²/(4b)。

3、当仅有周期驱动力而无噪声作用，双稳态势阱进行周期变化，相对垒高交替地上升下降。当周期信号幅度A小于临界值A_c，质点就能沿着一侧势阱以信号的频率进行局域性周期运动，其初始状态决定了在哪一侧。幅度A大于临界值A_c，势函数则周期性地发生倾斜，质点能发生跃迁现象。

4、当信号和噪声共同作用时，即使信号的幅度值小于临界值，在噪声作用下，质点也能发生跃迁。系统输出信号在势阱间来回切换，其输出的周期信号与输入弱周期信号同步，即通过增强系统输出弱周期分量实现了随机共振现象。

对势函数进行求导：

解式(4)得到双稳态系统的输入阈值阈值和系统参数a，b呈非线性关系，且随着a的增大迅速增大，随b的增大而迅速减小。系统阈值越大，粒子越过势垒完成状态跃迁所需能量越多，因此，参数a、b的调节控制对系统实现随机共振具有重要的影响。

能否达到随机共振，和非线性系统、输入弱信号、噪声都有关系，只有三者协同作用，才能实现随机共振。在信号、噪声未知并不可改变的情况下，系统参数a，b是唯一可调节的。

本发明包括如下步骤：

4)利用ε-greedy策略确定Q-Learning行动得到经验知识和训练例；

以下对该方法进行详细描述。

1)对系统参数可能解进行编码，形成初始化基因空间，并进行空间分割；

具体为：对a，b的可能解用二进制编码，得到基因空间X_g。令D＝(d₁,d₂,…,d_n),d_i＞0,i＝1,2,…,n,对于将x按照D给的长度规则进行分段，实现基因空间的分割，记为A＝(A₁,A₂,…,A_n)，其中称D＝(d₁,d₂,…,d_n)为X_g的分割模式，n为分割度。

2)初始化Q值；

具体为：给定一个基因分割A＝(A₁,A₂,…A_n)，创建n个Agent并且将A_i作为Agent的行动策略空间。那么，n个Agent一次并发行动就构成了对整个基因空间X_g的一次搜索。初始化Q_i(a_i,j)＝0,i＝1,2,…,n,j＝1,…,

3)用ε-greedy策略确定Q-Learning的行动策略；

具体为：以1-ε的概率选择到目前为止最好的行动策略，以ε的概率选择行动策略空间中的任一行动策略，得出本次的行动策略

4)更新迭代；

具体为：每次经过随机共振系统后进行适应度的计算，用信噪比作为适应度的评价指标，也作为环境的奖赏。然后依据适应度更新Q值：α_i,k为学习速率，γ为折扣因子。最后进行精英保留。

5)判断是否满足终止条件，满足则输出最优解，若不满足则返回步骤3)进行下一次迭代。

Claims

1.面向水下弱信号检测的强化学习自适应随机共振方法，其特征在于包括如下步骤：

4)利用ε-greedy策略确定Q-Learning行动得到经验知识和训练例；