CN114362773B

CN114362773B - 一种面向光学射频对消的实时自适应追踪决策方法

Info

Publication number: CN114362773B
Application number: CN202111640324.8A
Authority: CN
Inventors: 余骁; 叶佳; 闫连山; 潘炜
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-12-06
Anticipated expiration: 2041-12-29
Also published as: CN114362773A

Abstract

本发明公开了一种面向光学射频对消的实时自适应追踪决策方法，具体为：包括关键的光学射频对消和自适应决策模型；自适应决策模型收到光学射频对消环境给出的状态和奖励信息，并根据状态信息、奖励信息以及自适应决策模型给出自适应控制信息，输入光学射频对消环境；自适应决策模型与光学射频对消环境的交互过程中通过更新自适应参数学习策略以达成回报，从而适应动态变化的物理环境，实现光学射频对消的问题。本发明使用的微波光子学以及自适应决策方案能提供更大调节范围及调谐精度的延时技术以及更优的光学射频对消策略，能更快速的响应处理自干扰信号。

Description

一种面向光学射频对消的实时自适应追踪决策方法

技术领域

本发明属于人工智能在射频对消技术上的应用技术领域，尤其涉及一种面向光学射频对消的实时自适应追踪决策方法。

背景技术

随着无线通信产业的发展，无线通信中使用的信号带宽越来越宽，频谱需求越来越大，相对应的频谱资源却越来越少。目前，无线通信上下行链路从频分多址、时分多址到码分多址的发展，人们一直致力于研究节约频谱资源和最大化利用频谱的算法和技术，此时无线通信学界的另一个提升频谱利用率的研究热点同时同频全双工通信应运而生。同时同频全双工通信中最重要的核心是信号的自干扰消除。在同时同频全双工通信中，由于发射与接收同时进行，自干扰信号的功率会远远大于接收对方信号的功率，对接收系统造成严重干扰。不仅有用信息被淹没在强烈的自干扰信号中造成接收数据错误，而且接收链路的低噪声放大器也会接近饱和对接收系统的硬件造成严重危害。所以，要实现全双工通信，必须在接收链路进行自干扰消除。光载无线技术是将光纤通信和无线通信结合起来的新兴技术，具有更低的传输损耗、电磁干扰免疫等优点。因此，采用同时同频全双工模式的光载无线通信技术能够兼顾二者优点，能够实现高效、低损耗的通信系统。

强化学习又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，是标准的马尔可夫决策过程，用于描述和解决策略模型在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。近年来，强化学习在各个控制领域中表现优异，尤其是在自适应策略方面往往能够实现比人类策略选择更优的策略选择。

发明内容

为了快速准确自动地对自干扰信号进行消除，不依据人类经验的情况下，快速准确消除自干扰信号，实现同时同频全双工通信。本发明提供一种面向光学射频对消的实时自适应追踪决策方法。

本发明的一种面向光学射频对消的实时自适应追踪决策方法，包括以下步骤：

步骤1：初始化建立策略模型和状态-控制表，预设判定阈值、衰减值、追踪衰减值、模型学习率、贪婪探索值。

步骤2：获取当前时间段光学射频对消环境的状态信息与奖励信息。

步骤3：判断当前时间段误码率是否达到判定阈值，若达到则返回步骤2，若未达到则进入下一步。

步骤4：策略模型随机一个数小于贪婪探索值，则输出一个随机控制信息；否则，根据当前时间段的状态信息，输出控制信息；状态-控制表记录当前时间段的状态信息时输出当前控制信息的概率为1。

步骤5：输出的控制信息送入光学射频对消环境；策略模型中当前时间段的状态信息输出当前控制信息的概率乘以衰减值与前一时间段的状态信息及其输出控制信息的差值再加上获得的奖励值作为时分误差；时分误差、状态-控制表的概率与模型学习率的积更新策略模型中的参数。

步骤6：模型学习率、贪婪探索值自身乘以衰减值，状态-控制表的概率乘以追踪衰减值、衰减值，以达到衰减的目的。

步骤7：重复步骤2～步骤6。

步骤5中策略模型参数更新具体为：

S1：获取下一时间段的光学射频对消环境的状态信息。

S2：根据多个时间段的光学射频对消环境的状态信息，记录并计算状态路径。

经历的每个时间段的光学射频对消环境的状态信息和控制信息记录在状态-控制表中，每经历一个时间段对状态-控制表进行折扣计算，保证当前时间段记录的状态-控制信息为最新。

S3：使用状态路径的时分误差更新策略，对策略模型进行训练并对策略模型进行自适应参数更新。

在时分误差更新中，根据当前时间段状态-控制信息、当前时间段的奖励值以及下一时间段状态-控制信息，计算时分误差；使用该时分误差以及当前时间段的最新状态路径，对策略模型进行训练并对策略模型进行自适应参数更新。

上述光学射频对消环境的状态信息包括：光学射频对消环境的光路时延值、光路衰减值、信号误码率和接收信号数据中的一项或者任意多项。

上述光学射频对消环境的控制信息包括：光学射频对消环境的光路时延值的调整值、光路衰减值的调整值，用于执行控制光学射频对消环境的光路时延值和光路衰减值。

上述光学射频对消环境的奖励信息包括：光学射频对消环境的前一时间段的误码率对数值与当前时间段的误码率对数值的差，用于自适应更新策略模型的参数。

上述光学射频对消环境包括：

对消信号反馈模块：用于获取光学射频对消环境当前时间段的状态信息；

光学真延时网络控制模块：用于接收策略模型的控制信息，生成参考信号并发给对消信号反馈模块将自干扰信号消除。

本发明和现有技术相比的有益技术效果为：

本发明基于微波光子学方案能提供更大调节范围及调谐精度的延时技术，从而构造出具有高频率、大带宽和宽延时范围的射频参考信号；自适应决策算法能更快速稳定实时消除自干扰信号。能够不依据人类经验的情况下，快速准确地对自干扰信号进行消除，实现同时同频全双工通信。

附图说明

图1为本发明自适应追踪决策方法实现框图。

图2为本发明光学射频对消环境状态-动作-奖励图。

图3为本发明方法的具体实施的方案示意图。

图4为干扰信号与有效信号的频谱图。

图5为本发明方法的运行实时误码率和奖励图。

图6为本发明方法的不同误码率情况下的星座图。

具体实施方式

下面结合附图和具体实施方法对本发明的作进一步的详细说明。

本发明的一种面向光学射频对消的实时自适应追踪决策方法如图1所示，具体包括以下步骤：

1、在接受信号端(如图3所示)，接收信号(101)经由一强度电光调制器(103)通过双边带或单边带调制方式调制到激光器(102)产生的单波长连续波激光上，在小信号模型下，输出光信号可以表示为：

其中，A_r为激光器(102)产生激光的幅值，ω_r为激光器(102)产生激光的角频率，

为接收到的接收信号(101)，里面包含具有不同延时和衰减量的多路自干扰信号与有效信号。

2、使将已调制到光上的接收信号(101)通过光路输入到平衡光电探测器(104)的一个端口。

3、在参考信号端，参考射频信号(105)与发射信号一致，经由另一强度电光调制器(107)通过双边带或单边带调制方式调制到多路激光器(106)产生的多路多波长连续激光上，在小信号模型下，输出光信号可以表示为：

其中，A_k为第k个波长的幅值，ω_k为第k个波长的角频率，N为波长总数，

为参考射频信号。

4、强度电光调制器(107)输出的多频率分量的已调光信号经由分路器(108)分为多路已调光信号，分别将多路已调光信号送入多路可调真延时光网络(120)中进行适当的延时量和衰减量调整，通过合路器(109)合路输出，其输出光信号可以表示为：

其中，kT为调节的不同真延时量，a_k为调节的不同的衰减系数。

5、合路器(109)合路输出的光信号通过光路输入到平衡光电探测器(104)的另一个端口。在平衡光电探测器(104)中，能够将两个端口输入的光信号直接进行平方律检波，恢复为电信号，并对其中一路进行反相处理。若对参考信号进反相处理，则拍频恢复的参考电信号可以表示为：

其中，R为光电探测器的响应度，I₀为直流项。由上式可以看出，得到的真延时光网络形状由时延基数T、探头数N和衰减系数a共同决定。

则另一路拍频恢复的接收电信号可以表示为：

其中，φ(t)代表接收端接收的有效信号，

代表接收端接收到的发射信号多径效应造成的N个泄漏干扰信号。

6、在平衡探测器(104)中，两路拍频恢复的电信号为相加输出到对消后信号(110)模块。则合路输出的电信号可以表示为：

从上式中可以看出，只要适当调整真延时量以及信号强度，后两项可以抵消，消除多径泄漏干扰信号的影响，恢复纯净的有效信号。

7、根据对消后信号(110)模块获取合路电信号的状态和结果，给出相应的状态和奖励送入自适应决策模型(200)中，自适应决策模型依据对消后信号(110)模块给出的状态和奖励给出相应动作操作多路可调光学真延时网络(120)调整多路参考光信号的延时和衰减以匹配白干扰信号。

上述步骤7中，如图2所示，因光学射频对消环境(100)的状态-动作空间的奖励稀疏性，故自适应决策模型(200)采用在线强化学习理论中的自适应决策模型算法来实现光学射频对消。自适应决策模型(200)采用的自适应决策算法包含策略模型(Q(s，a))，策略表会根据当前状态选择下一步动作，另一个为状态-控制表(e(s，a))，状态追踪表会根据状态记录和计算每一步的权重值。学习率α为0.1，折扣因子γ_lr为0.95，起始贪婪衰减值ε为1，追踪折扣因子γ_t为0.95，设当前时间段为t，其具体实施过程为：

(1)这一次对消后信号(110)模块中参考光信号在多路可调光学真延时网络(120)中调整的时延值Delay(t)与衰减值Decay(t)作为状态s(t)，送入自适应决策模型(200).

(2)前一次对消后信号(110)模块中有效信号的误码率log(BER(t-1))与这一次对消后信号(110)模块中有效信号的误码率log(BER(t))的差作为奖励r(t)，送入自适应决策模型(200)。

(3)自适应决策模型(200)根据对消后信号(110)模块输入的状态s(t)，通过下式选择动作a(t+1)：

a(t+1)＝arg maxQ(s(t)，a)，a∈动作空间

其中，动作空间包括：只增加延时值(分为0.1ns，0.01ns，0.001ns几种选择)，只减少延时值(分为0.1ns，0.01ns，0.001ns几种选择)，只增加衰减值(0.1dB)，只减少衰减值(0.1dB)，维持延时值和衰减值不变。每种动作定义为一个值a(t)＝{0，1，2，3，4，5，6，7，8}，每个值代表一个动作或增加延时值或减少延时值或增加衰减值或减少衰减值或保持不变。自适应决策模型(200)的动作a(t+1)操作多路可调光学真延时网络(140)中调整每一路的时延值Delay(t+1)与衰减值Decay(t+1)。

(4)自适应决策模型(200)根据对消后信号(110)模块输入的奖励r(t)，与策略表选择的动作a(t+1)与当前动作a(t)进行如下式的更新：

其中，s为全体状态空间，a为全体动作空间。自适应决策模型(200)的学习率等参数，如下式更新：

(5)若对消后信号(110)模块中有效信号的误码率BER(t)小于硬判决前向纠错(HD-FEC)阈值3.8e-3，则自适应决策模型(200)不再调整时延值与衰减值。

根据上述方案原理，利用如图3所示的方法构建一种自适应光学射频对消方案，中心频率为5GHz，带宽为2GHz的OFDM QAM 16干扰信号与中心频率为5GHz，带宽为1GHz的OFDMQAM 16有效信号频谱如图4所示。根据算法设置，每100个时间周期为一段，每段开始重置多路可调光学真延时网络(120)来验证算法的自适应稳定度，如图5所示。图6为不同误码率对应的星座图。

综上所述，本发明具有如下特征。(1)基于微波光子学方案能提供更大调节范围及调谐精度的延时技术，从而构造出具有高频率、大带宽和宽延时范围的射频参考信号；(2)自适应决策算法能更快速稳定实时消除自干扰信号。

Claims

1.一种面向光学射频对消的实时自适应追踪决策方法，其特征在于，包括以下步骤：

步骤1：初始化建立策略模型和状态-控制表，预设判定阈值、衰减值、追踪衰减值、模型学习率、贪婪探索值；

步骤2：获取当前时间段光学射频对消环境的状态信息与奖励信息；

步骤3：判断当前时间段误码率是否达到判定阈值，若达到则返回步骤2，若未达到则进入下一步；

步骤4：策略模型随机一个数小于贪婪探索值，则输出一个随机控制信息；否则，根据当前时间段的状态信息，输出控制信息；状态-控制表记录当前时间段的状态信息时输出当前控制信息的概率为1；

步骤5：输出的控制信息送入光学射频对消环境；策略模型中当前时间段的状态信息输出当前控制信息的概率乘以衰减值与前一时间段的状态信息及其输出控制信息的差值再加上获得的奖励值作为时分误差；时分误差、状态-控制表的概率与模型学习率的积更新策略模型中的参数；

策略模型参数更新具体为：

S1：获取下一时间段的光学射频对消环境的状态信息；

S2：根据多个时间段的光学射频对消环境的状态信息，记录并计算状态路径；

经历的每个时间段的光学射频对消环境的状态信息和控制信息记录在状态-控制表中，每经历一个时间段对状态-控制表进行折扣计算，保证当前时间段记录的状态-控制信息为最新；

S3：使用状态路径的时分误差更新策略，对策略模型进行训练并对策略模型进行自适应参数更新；

在时分误差更新中，根据当前时间段状态-控制信息、当前时间段的奖励值以及下一时间段状态-控制信息，计算时分误差；使用该时分误差以及当前时间段的最新状态路径，对策略模型进行训练并对策略模型进行自适应参数更新；

步骤6：模型学习率、贪婪探索值自身乘以衰减值，状态-控制表的概率乘以追踪衰减值、衰减值，以达到衰减的目的；

步骤7：重复步骤2～步骤6。

2.根据权利要求1所述的一种面向光学射频对消的实时自适应追踪决策方法，其特征在于，所述光学射频对消环境的状态信息包括：光学射频对消环境的光路时延值、光路衰减值、信号误码率和接收信号数据中的一项或者任意多项。

3.根据权利要求1所述的一种面向光学射频对消的实时自适应追踪决策方法，其特征在于，所述光学射频对消环境的控制信息包括：光学射频对消环境的光路时延值的调整值、光路衰减值的调整值，用于执行控制光学射频对消环境的光路时延值和光路衰减值。

4.根据权利要求1所述的一种面向光学射频对消的实时自适应追踪决策方法，其特征在于，所述光学射频对消环境的奖励信息包括：光学射频对消环境的前一时间段的误码率对数值与当前时间段的误码率对数值的差，用于自适应更新策略模型的参数。

5.根据权利要求1所述的一种面向光学射频对消的实时自适应追踪决策方法，其特征在于，所述光学射频对消环境包括：