CN111314015B - 一种基于强化学习的脉冲干扰决策方法 - Google Patents
一种基于强化学习的脉冲干扰决策方法 Download PDFInfo
- Publication number
- CN111314015B CN111314015B CN202010014696.9A CN202010014696A CN111314015B CN 111314015 B CN111314015 B CN 111314015B CN 202010014696 A CN202010014696 A CN 202010014696A CN 111314015 B CN111314015 B CN 111314015B
- Authority
- CN
- China
- Prior art keywords
- interference
- action
- effect
- power
- error rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 title claims abstract description 27
- 230000009471 action Effects 0.000 claims abstract description 78
- 230000000694 effects Effects 0.000 claims abstract description 38
- 208000001613 Gambling Diseases 0.000 claims abstract description 6
- 238000004891 communication Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 16
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000001149 cognitive effect Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K3/00—Jamming of communication; Counter-measures
- H04K3/40—Jamming having variable characteristics
- H04K3/43—Jamming having variable characteristics characterized by the control of the jamming power, signal-to-noise ratio or geographic coverage area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K3/00—Jamming of communication; Counter-measures
- H04K3/40—Jamming having variable characteristics
- H04K3/44—Jamming having variable characteristics characterized by the control of the jamming waveform or modulation type
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习的脉冲干扰决策方法。该方法为:首先将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式,构造多臂赌博机模型,并构造干扰策略的干扰效果奖赏值;然后使用正强化效应,提高奖赏最大的干扰动作周围区域内的干扰动作下一次被选中的概率;接着使用惩罚效应,删除无效的干扰动作周围区域内的干扰动作;最后按照功率从高到低的顺序进行干扰动作搜索,获取最佳干扰决策。本发明具有交互次数少、学习效率高、干扰效果好的优势。
Description
技术领域
本发明涉及物理层通信干扰决策技术领域,特别是一种基于强化学习的脉冲干扰决策方法。
背景技术
在对通信目标进行干扰时,若想得到期望的干扰效果,可以选用多组干扰参数(如干扰功率、干扰占空比等)的组合,干扰方总是希望花费更少的代价获得更大的干扰收益,因此干扰方需要对干扰参数进行合理的选择以实现最佳干扰。在实际作战场景中,作为对抗方对通信方信号知之甚少,最常见的干扰决策方法是立足于常规侦察结果并结合干扰经验选择干扰参数进而生成干扰策略,由于复杂的战场环境使得仅凭干扰经验很难生成最优的干扰策略,通常这类方法会选用较大的干扰功率,这就使得干扰机容易对己方设备产生影响并且极易成为反辐射武器的攻击目标,并且当战场环境改变时,此类方法很难在短时间内产生与之契合的干扰策略,存在干扰滞后的问题。
认知干扰方法的提出使得干扰机可以迅速、智能地应对复杂的干扰任务,该方法结合人工智能技术并根据效能评估结果自主地建立与通信目标状态匹配的干扰策略,从而能够针对灵活变化的目标进行快速干扰响应,认知干扰系统具备根据环境动态调整干扰策略的能力。强化学习通过模仿动物的学习过程进行强化学习,是人工智能领域中一类重要的学习方法,常用于决策领域,其特点是不依赖先验知识,通过“试错”来学习如何最佳地匹配状态和动作,靠自身的经历获得知识,对环境中获得的知识进行评价进而改进行动方案以适应环境。考虑到干扰策略学习应用中,由于战场环境的复杂性和干扰目标的未知性使对抗方很难具备先验知识,因此借助强化学习理论,利用其实时交互的学习特点对脉冲干扰参数进行决策。因AlphaGo而声名大噪的强化学习目前已经在机器人控制、优化调度、多智能体和交通信号控制等领域取得了若干成功的应用。利用强化学习的方法进行干扰策略学习是认知电子战领域中一个重要的研究方向。
对干扰决策算法的评价有三个指标:(1)算法学习速度:在瞬息万变的战场环境中,只有具备快速学习能力的决策算法才能根据作战任务迅速做出反应,要求算法的交互次数要尽可能的少;(2)有效性:作为干扰方的最终目的是要完成干扰任务,干扰决策算法在“试错”的过程中难免会选择到无效的干扰动作,因此要求算法在交互次数中,满足干扰要求的次数越多越好;(3)准确性:干扰决策算法要有学习到最佳干扰动作的能力,但目前的强化学习方法在缺少先验知识的情况下需要数以百计、千计的交互次数才能学习到最优干扰策略,存在交互次数多、学习效率低、干扰效果差等问题。
发明内容
本发明的目的在于提供一种交互次数少、学习效率高、干扰效果好的基于强化学习的脉冲干扰决策方法。
实现本发明目的的技术解决方案为:一种基于强化学习的脉冲干扰决策方法,包括以下步骤:
步骤1、将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式;
步骤2、构造多臂赌博机模型,并构造干扰策略的干扰效果奖赏值;
步骤3、使用正强化效应,提高奖赏最大的干扰动作区域范围内的干扰动作下一次被选中的概率;
步骤4、使用惩罚效应,删除无效的干扰动作区域范围内的干扰动作;
步骤5、按照功率从高到低的顺序进行干扰动作搜索,获取最佳干扰决策。
进一步地,步骤1所述的将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式,具体如下:
在采用卷积编码通信的场景下,将脉冲干扰信号p(t)建模为矩形脉冲串与干扰信号相乘的形式,即:
其中J(t)为干扰信号;a(t)为矩形脉冲串,包括m个周期为T、脉宽为τ的子脉冲,i=0,1,…m-1;u(t)为阶跃函数。
进一步地,步骤2所述的构造多臂赌博机模型,并构造干扰策略的干扰效果奖赏值,具体如下:
步骤2.1、以平均干扰功率、干扰占空比构造多臂赌博机的“臂”,即{PJ,ρ},其中PJ∈[PJmin,PJmax],ρ∈(0,1],其中PJ表示平均干扰功率,PJmin为干扰策略空间中最小平均干扰功率,PJmax为干扰策略空间中最大平均干扰功率;
步骤2.2、利用M和N分别对干扰功率、干扰占空比进行赋值划分,其中M和N为划分间隔,得出干扰功率集合为PJmin+(PJmax-PJmin)*{1/M,2/M,…,1},干扰占空比集合为{1/N,2/N,...,1};
步骤2.3、干扰机先发射干扰信号,采用TCP/IP协议的通信方,接收方在接收数据包后发送确认帧/非确认帧信息,干扰方利用该信息统计获得发送信息的误报率,进而算出误符号率,然后对满足期望干扰效果的干扰策略予以奖赏,具体奖赏值的构造方式如下式所示:
其中ζt为干扰产生的误码率,通过对环境的侦察或干扰评估得到;ζE为期望产生的误码率。
进一步地,步骤3所述的使用正强化效应,提高奖赏最大的干扰动作区域范围内的干扰动作下一次被选中的概率,具体如下:
步骤3.1、用干扰功率、干扰占空比组成干扰策略空间,其中干扰功率为平均干扰功率,干扰策略空间为:PJmin+(PJmax-PJmin)*{1/M,2/M,...,1}和{1/N,2/N,...,1};
步骤3.2、选择已知奖赏最大的干扰动作区域范围δ内的干扰动作,提高该干扰动作周围区域δ内干扰动作下一次被选中的概率。
进一步地,步骤4所述的使用惩罚效应,删除无效的干扰动作区域范围内的干扰动作,具体如下:
如果一个干扰动作得到的环境反馈误码率小于期望误码率,则代表该干扰动作是无效干扰动作,将无效干扰动作的奖赏信息置零,并通过删除该干扰动作区域范围内确知的无效干扰动作,降低下一次选中无效干扰动作的概率,删除Sw={(PJ,ρ)|ζ(PJ,ρ)<ζE}空间,其中Sw表示干扰未达到期望效果的干扰动作集合、ζ(PJ,ρ)表示干扰产生的误码率、ζE为期望产生的误码率。
本发明与现有技术相比,其显著优点在于:(1)将正强化效应与多臂赌博机模型相结合,加快了学习速度;(2)在交互过程中遵循干扰功率由高到低的方式“试错”,即使在“试错”过程中仍保证干扰的有效性;(3)所需交互次数为动作总数1/24就能学习到最优干扰策略,且其中大多数干扰动作都是有效干扰动作,提高了计算效率和干扰效果。
附图说明
图1是本发明一种基于强化学习脉冲干扰决策学习的流程示意图。
图2是本发明实施例中干扰策略空间的结果示意图。
图3是本发明实施例中正强化效应的结果示意图。
图4是本发明实施例中惩罚效应一的结果示意图。
图5是本发明实施例中惩罚效应二的结果示意图。
图6是本发明实施例中PRL算法的学习过程示意图。
图7是本发明实施例中本发明算法的学习过程示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
结合图1,本发明基于强化学习的脉冲干扰决策方法,包括以下步骤:
步骤1、将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式,具体如下:
在采用卷积编码通信的场景下,将脉冲干扰信号p(t)建模为矩形脉冲串与干扰信号相乘的形式,即:
其中J(t)为干扰信号;a(t)为矩形脉冲串,包括m个周期为T、脉宽为τ的子脉冲,i=0,1,…m-1;u(t)为阶跃函数。
步骤2、构造多臂赌博机模型,并构造干扰策略的干扰效果奖赏值,具体如下:
步骤2.1、以平均干扰功率、干扰占空比构造多臂赌博机的“臂”,即{PJ,ρ},其中PJ∈[PJmin,PJmax],ρ∈(0,1],其中PJ表示平均干扰功率,PJmin为干扰策略空间中最小平均干扰功率,PJmax为干扰策略空间中最大平均干扰功率;
步骤2.2、利用M和N分别对干扰功率、干扰占空比进行赋值划分,其中M和N为划分间隔,得出干扰功率集合为PJmin+(PJmax-PJmin)*{1/M,2/M,...,1},干扰占空比集合为{1/N,2/N,...,1};
步骤2.3、干扰机先发射干扰信号,采用TCP/IP协议的通信方,接收方在接收数据包后发送确认帧/非确认帧信息,干扰方利用该信息统计获得发送信息的误报率,进而算出误符号率,然后对满足期望干扰效果的干扰策略予以奖赏,具体奖赏值的构造方式如下式所示:
其中ζt为干扰产生的误码率,通过对环境的侦察或干扰评估得到;ζE为期望产生的误码率。
步骤3、使用正强化效应,提高奖赏最大的干扰动作区域范围内的干扰动作下一次被选中的概率,具体如下:
步骤3.1、用干扰功率、干扰占空比组成干扰策略空间,其中干扰功率为平均干扰功率,干扰策略空间为:PJmin+(PJmax-PJmin)*{1/M,2/M,...,1}和{1/N,2/N,…,1};
步骤3.2、选择已知奖赏最大的干扰动作区域范围δ内的干扰动作,提高该干扰动作周围区域δ内干扰动作下一次被选中的概率。
步骤4、使用惩罚效应,删除无效的干扰动作区域范围内的干扰动作,具体如下:
如果一个干扰动作得到的环境反馈误码率小于期望误码率,则代表该干扰动作是无效干扰动作,将无效干扰动作的奖赏信息置零,并通过删除该干扰动作区域范围内确知的无效干扰动作,降低下一次选中无效干扰动作的概率,删除Sw={(PJ,ρ)|ζ(PJ,ρ)<ζE}空间,其中Sw表示干扰未达到期望效果的干扰动作集合、ζ(PJ,ρ)表示干扰产生的误码率、ζE为期望产生的误码率。
步骤5、按照功率从高到低的顺序进行干扰动作搜索,获取最佳干扰决策。
实施例1
第一阶段,结合图2、图3,干扰方首先从干扰功率最大的动作区域PJmax×{1/N,2/N,…,1}中选择动作,其中“×”表示笛卡尔积,选择合适的干扰参数组合{PM,ρ}生成干扰信号并进行干扰,结合图4,根据获得的奖赏信息R利用惩罚效应中的情况一对干扰策略空间内的干扰动作进行剔除操作,若奖赏信息R>0则说明该干扰动作有效,经过几次交互后,干扰方根据经验设定参数δρ、ε1、ε2的值,利用概率ε1、ε2增加选中获得奖赏最大的动作附近区间[ρa-δρ,ρa+δρ]的概率,经过多次交互,学习结果得出在PJmax×{1/N,2/N,…,1}区域内的最优动作为(PJmax,ρbest),则干扰策略空间被缩小为{PJmin+(PJmax-PJmin)*{1/M,2/M,…,1}}×{ρbest,…,1}。
第二个阶段,结合图5,干扰方从第一阶段产生的新的干扰策略空间{PJmin+(PJmax-PJmin)*{1/M,2/M,…,1}}×{ρbest,…,1}内选择干扰参数组合{P,ρ}生成干扰信号并实施干扰,然后根据获得的奖赏信息R利用惩罚效应中的情况二对干扰策略空间内的干扰动作进行剔除操作,若奖赏信息R>0则说明该干扰动作有效,经过几次交互后,干扰方根据经验设定参数δPower,δρ、ε1、ε2的值,利用概率ε1、ε2增加选中获得奖赏最大的动作附近区间[Pa-δPower,Pa+δPower]、[ρa-δρ,ρa+δρ]的概率。
结合图6~图7,将本发明提出的方法与正强化学习(Positive ReinforcementLearning,PRL)算法进行对比实验,正强化学习算法则是将正强化效应与多臂赌博机模型相结合,加快了学习速度。
正强化学习算法需要交互次数为动作总数的1/6后收敛至稳定值,但该算法在“试错”过程中没考虑到干扰的有效性,导致交互过程中多次选中无效干扰动作,这与干扰方的干扰目的相违背。本发明提出的基于强化学习的脉冲干扰决策方法,通过正强化效应与惩罚效应相结合,加快了算法的学习速度,在交互过程中遵循干扰功率由高到低的方式“试错”,即使在“试错”过程中仍保证干扰的有效性,本发明算法所需交互次数为动作总数1/24就能学习到最优干扰策略,且其中大多数干扰动作都是有效干扰动作。
Claims (3)
1.一种基于强化学习的脉冲干扰决策方法,应用于军事对抗场景中,其特征在于,包括以下步骤:
步骤1、将脉冲干扰信号建模为矩形脉冲串与干扰信号相乘的形式;
步骤2、构造多臂赌博机模型,并构造干扰策略的干扰效果奖赏值,具体如下:
步骤2.1、以平均干扰功率、干扰占空比构造多臂赌博机的“臂”,即{PJ,ρ},其中PJ∈[PJmin,PJmax],ρ∈(0,1],其中PJ表示平均干扰功率,PJmin为干扰策略空间中最小平均干扰功率,PJmax为干扰策略空间中最大平均干扰功率;
步骤2.2、利用M和N分别对干扰功率、干扰占空比进行赋值划分,其中M和N为划分间隔,得出干扰功率集合为PJmin+(PJmax-PJmin)*{1/M,2/M,...,1},干扰占空比集合为{1/N,2/N,...,1};
步骤2.3、干扰机先发射干扰信号,采用TCP/IP协议的通信方,接收方在接收数据包后发送确认帧/非确认帧信息,干扰方利用该信息统计获得发送信息的误报率,进而算出误符号率,然后对满足期望干扰效果的干扰策略予以奖赏,具体奖赏值的构造方式如下式所示:
其中ζt为干扰产生的误码率,通过对环境的侦察或干扰评估得到;ζE为期望产生的误码率;
步骤3、使用正强化效应,提高奖赏最大的干扰动作区域范围内的干扰动作下一次被选中的概率,具体如下:
步骤3.1、用干扰功率、干扰占空比组成干扰策略空间,其中干扰功率为平均干扰功率,干扰策略空间为:PJmin+(PJmax-PJmin)*{1/M,2/M,...,1}和{1/N,2/N,...,1};
步骤3.2、选择已知奖赏最大的干扰动作区域范围δ内的干扰动作,提高该干扰动作周围区域δ内干扰动作下一次被选中的概率;
步骤4、使用惩罚效应,删除无效的干扰动作区域范围内的干扰动作;
步骤5、按照功率从高到低的顺序进行干扰动作搜索,获取最佳干扰决策。
3.根据权利要求1所述的基于强化学习的脉冲干扰决策方法,其特征在于,步骤4所述的使用惩罚效应,删除无效的干扰动作区域范围内的干扰动作,具体如下:
如果一个干扰动作得到的环境反馈误码率小于期望误码率,则代表该干扰动作是无效干扰动作,将无效干扰动作的奖赏信息置零,并通过删除该干扰动作区域范围内确知的无效干扰动作,降低下一次选中无效干扰动作的概率,删除Sw={(PJ,ρ)|ζ(PJ,ρ)<ζE}空间,其中Sw表示干扰未达到期望效果的干扰动作集合、ζ(PJ,ρ)表示干扰产生的误码率、ζE为期望产生的误码率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010014696.9A CN111314015B (zh) | 2020-01-07 | 2020-01-07 | 一种基于强化学习的脉冲干扰决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010014696.9A CN111314015B (zh) | 2020-01-07 | 2020-01-07 | 一种基于强化学习的脉冲干扰决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111314015A CN111314015A (zh) | 2020-06-19 |
CN111314015B true CN111314015B (zh) | 2022-08-05 |
Family
ID=71146907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010014696.9A Expired - Fee Related CN111314015B (zh) | 2020-01-07 | 2020-01-07 | 一种基于强化学习的脉冲干扰决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111314015B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112616158B (zh) * | 2020-12-14 | 2023-09-05 | 中国人民解放军空军工程大学 | 一种认知通信干扰决策方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103441962A (zh) * | 2013-07-17 | 2013-12-11 | 宁波大学 | 一种基于压缩感知的ofdm系统脉冲干扰抑制方法 |
CN103716275A (zh) * | 2013-12-05 | 2014-04-09 | 国家电网公司 | 一种电力线正交频分复用通信系统中消除脉冲干扰的方法 |
CN108712748A (zh) * | 2018-04-12 | 2018-10-26 | 天津大学 | 一种基于强化学习的认知无线电抗干扰智能决策的方法 |
CN110031807A (zh) * | 2019-04-19 | 2019-07-19 | 电子科技大学 | 一种基于无模型强化学习的多阶段灵巧噪声干扰方法 |
-
2020
- 2020-01-07 CN CN202010014696.9A patent/CN111314015B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103441962A (zh) * | 2013-07-17 | 2013-12-11 | 宁波大学 | 一种基于压缩感知的ofdm系统脉冲干扰抑制方法 |
CN103716275A (zh) * | 2013-12-05 | 2014-04-09 | 国家电网公司 | 一种电力线正交频分复用通信系统中消除脉冲干扰的方法 |
CN108712748A (zh) * | 2018-04-12 | 2018-10-26 | 天津大学 | 一种基于强化学习的认知无线电抗干扰智能决策的方法 |
CN110031807A (zh) * | 2019-04-19 | 2019-07-19 | 电子科技大学 | 一种基于无模型强化学习的多阶段灵巧噪声干扰方法 |
Non-Patent Citations (5)
Title |
---|
A new hop rate estimation method for high-speed frequency-hopping signals;Yingke Lei、Yanhua Wu;《2008 11th IEEE Singapore International Conference on Communication Systems》;20090106;全文 * |
一种基于优势更新的机器人平衡控制算法;史涛等;《山东科技大学学报(自然科学版)》;20130620(第03期);全文 * |
基于认知原理的机载雷达抗干扰技术研究;贲德等;《中国电子科学研究院学报》;20130820(第04期);全文 * |
采用双层强化学习的干扰决策算法;颛孙少帅等;《西安交通大学学报》;20171205(第02期);全文 * |
针对信道编码的高效脉冲干扰方法;邵堃等;《探测与控制学报》;20191226(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111314015A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Dynamic spectrum anti-jamming communications: Challenges and opportunities | |
Xu et al. | Learning multi-agent coordination for enhancing target coverage in directional sensor networks | |
CN113382381B (zh) | 一种基于贝叶斯q学习的无人机集群网络智能跳频方法 | |
Bai et al. | Adversarial examples construction towards white-box q table variation in dqn pathfinding training | |
CN111723931B (zh) | 一种多智能体对抗动作预测方法及装置 | |
CN111314015B (zh) | 一种基于强化学习的脉冲干扰决策方法 | |
CN110213025A (zh) | 基于深度强化学习的专用自组网抗干扰方法 | |
CN114326822B (zh) | 一种基于演化博弈的无人机集群信息共享方法 | |
CN113741186B (zh) | 一种基于近端策略优化的双机空战决策方法 | |
Han et al. | Multi-uav automatic dynamic obstacle avoidance with experience-shared a2c | |
Liang et al. | Hierarchical deep reinforcement learning for multi-robot cooperation in partially observable environment | |
CN112884148A (zh) | 嵌入多步规则的混合强化学习训练方法、设备及存储介质 | |
Cheng et al. | Weapon-target assignment of ballistic missiles based on Q-learning and genetic algorithm | |
CN114757092A (zh) | 基于队友感知的多智能体协作通信策略的训练系统和方法 | |
CN116340737A (zh) | 基于多智能体强化学习的异构集群零通信目标分配方法 | |
Rawal et al. | Evolution of a communication code in cooperative tasks | |
CN114895710A (zh) | 一种无人机集群自主行为的控制方法及系统 | |
CN107316080B (zh) | 一种基于人工智能的模糊逻辑技术实现ai行为判断方法 | |
CN116679753B (zh) | 一种异构无人系统抗欺骗攻击的编队跟踪控制方法 | |
CN117539270A (zh) | 无人机集群协同机器学习实施电磁频谱干扰方法和系统 | |
Myhre | A comparative study of reinforcement learning algorithms in a multi-agent system | |
Zhang et al. | Learning Cooperative Policies with Graph Networks in Distributed Swarm Systems | |
Huang et al. | Group Sharing Risk Avoidance Method Based on Fuzzy Reinforcement Learning Strategy | |
CN116360483A (zh) | 基于局部观测信息的多无人机协同攻防对抗方法及系统 | |
Ben Amor et al. | A neural framework for robot motor learning based on memory consolidation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220805 |