CN118070869A

CN118070869A - 一种用于电磁频谱行动协同的数据处理方法及装置

Info

Publication number: CN118070869A
Application number: CN202410114979.9A
Authority: CN
Inventors: 张树森; 汪生; 许鲁彦; 张琳; 秦臻
Original assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Current assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Priority date: 2024-01-26
Filing date: 2024-01-26
Publication date: 2024-05-24

Abstract

本发明公开了一种用于电磁频谱行动协同的数据处理方法及装置，该方法包括：获取待决策状态信息；待决策状态信息包括第一动作状态信息和第二动作状态信息；第一动作状态信息包括A个第一动作状态；第二动作状态信息包括B个第二动作状态；A不小于B；基于待决策状态信息，确定出动作状态信息；动作状态信息包括B个并列排布的A*A矩阵；基于多智能体策略决策模型对动作状态信息进行处理，得到动作协同决策结果信息；动作协同决策结果信息用于指示电磁频谱行动的动作协同。可见，本申请有利于提高电磁频谱行动协同效率和精确度，进而提高电磁频谱行动适应不同环境的能力。

Description

一种用于电磁频谱行动协同的数据处理方法及装置

技术领域

本发明涉及电磁技术领域，尤其涉及一种用于电磁频谱行动协同的数据处理方法及装置。

背景技术

实际战场情况异常复杂、变幻莫测，传统技术很难对实际作战场景的电磁频谱作战策略实时精细建模，另外传统技术应对新情况需要重新建模，耗费宝贵的作战时间，如何快速生成适用于战时具体场景的电磁频谱作战策略成为重中之重。近年来，美军积极开展电磁频谱管控新技术研究，大力将人工智能、大数据、认知自主等新技术引入到电磁频谱作战管控中，推动电子战、频谱管理向电磁频谱作战深入融合。以美国和欧盟为首，正在致力于研究发展动态频谱管理与动态频谱接入，DARPA、欧盟和国际电信联盟等都在推动和主导这一新技术研究，如美军将动态频谱接入(DSA)技术作为其重点发展新兴频谱相关技术(EST)项目之一。从接入策略的角度看，动态频谱接入是在频谱管理中不再固定地将某段频谱资源指配给某个用频系统，并可以采用接近实时的方式调整频谱资源的利用，灵活地分配频谱资源，以适应不断改变的客观战场环境。对于异常复杂、变幻莫测的战场环境，快速生成适用于战时具体场景的电磁频谱作战策略未过多涉及。因此，提供一种用于电磁频谱行动协同的数据处理方法及装置，以提高电磁频谱行动协同效率和精确度，进而提高电磁频谱行动适应不同环境的能力。

发明内容

本发明所要解决的技术问题在于，提供一种用于电磁频谱行动协同的数据处理方法及装置有利于提高电磁频谱行动协同效率和精确度，进而提高电磁频谱行动适应不同环境的能力。

为了解决上述技术问题，本发明实施例第一方面公开了一种用于电磁频谱行动协同的数据处理方法，所述方法包括：

获取待决策状态信息；所述待决策状态信息包括第一动作状态信息和第二动作状态信息；所述第一动作状态信息包括A个第一动作状态；所述第二动作状态信息包括B个第二动作状态；所述A不小于所述B；

基于所述待决策状态信息，确定出动作状态信息；所述动作状态信息包括所述B个并列排布的A*A矩阵；

基于多智能体策略决策模型对所述动作状态信息进行处理，得到动作协同决策结果信息；所述动作协同决策结果信息用于指示电磁频谱行动的动作协同。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于多智能体策略决策模型对所述动作状态信息进行处理，得到动作协同决策结果信息，包括：

基于所述动作状态信息，确定出目标策略状态信息；所述目标策略状态信息表征B*A的矩阵；

获取策略处理次数；

判断策略处理次数是否满足次数阈值，得到次数判断结果；

当所述次数判断结果为是时，基于所述目标策略状态信息和所有历史目标策略状态信息，确定出动作协同决策结果信息；

当所述次数判断结果为否时，利用多智能体策略决策模型对所述目标策略状态信息进行计算处理，得到协同奖励值；

基于所述目标策略状态信息和所述协同奖励值，确定出所述动作协同决策结果信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述利用多智能体策略决策模型对所述目标策略状态信息进行计算处理，得到协同奖励值，包括：

判断所述目标策略状态信息中的是否存在矩阵元素全部为0的列，得到矩阵判断结果；

当所述矩阵判断结果为是时，确定协同奖励值为协同阈值；所述协同阈值为不大于0的整数；

当所述矩阵判断结果为否时，基于多智能体策略决策模型对所述目标策略状态信息进行计算，得到所述协同奖励值；

所述多智能体策略决策模型为：

其中，CC为协同奖励值；cz_j为第j个第二动作状态的策略价值；cb_i为第i个第一动作状态的策略成本；dc_ij为目标策略状态信息中的动作策略；a₁、a₂和a₃分别为第一常数系数、第二常数系数和第三常数系数。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于所述目标策略状态信息和所述协同奖励值，确定出所述动作协同决策结果信息，包括：

判断所述协同奖励值是否满足策略优化条件，得到条件判断结果；所述策略优化条件表征协同奖励值优于协同阈值；

当所述条件判断结果为否时，对所述目标策略状态信息进行更新，并出发执行所述获取策略处理次数；

当所述条件判断结果为是时，确定所述目标策略状态信息为所述动作协同决策结果信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述目标策略状态信息进行更新，包括：

对所述目标策略状态信息的进行仿真分析，得到策略动作状态信息；

利用所述策略动作状态信息与所述动作状态信息之间的状态匹配关系，确定出待用动作策略信息；

利用策略评估优化模型对所述待用动作策略信息和所有所述历史目标策略状态信息进行计算，得到第一动作策略信息；

所述策略评估优化模型为：

其中，DDZ为第一动作策略信息对应的第一动作策略值；LCZ为所有所述历史目标策略状态信息对应的历史目标策略状态值；LCZ_x为所述待用动作策略信息对应的待用动作策略值；ε为评估系数；random()为所述待用动作策略信息对应的策略概率值；b₁和b₁为第四常数系数和第五常数系数；

利用策略更新优化模型将所述第一动作策略信息替换为新的目标策略状态信息；

所述策略更新优化模型为：

其中，Q(s1,a1)为在动作为a1，状态s1为时的新的目标策略状态信息；Q(s0,a0)为更新前在动作为a0，状态s0为时的目标策略状态信息；α为第一更新系数；γ为第二更新系数；Q(s′,a)为在动作为a，状态s′为时的所述第一动作策略信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述第一动作策略信息为B*A的矩阵；所述第一动作策略信息中的矩阵元素值包括0，和/或，1；

在所述利用策略评估优化模型对所述待用动作策略信息和所有所述历史目标策略状态信息进行计算，得到第一动作策略信息之后，所述方法还包括：

对所述第一动作策略信息中所有所述矩阵元素值进行累计求和处理，得到矩阵计算累计值；

判断所述矩阵计算累计值是否等于所述B，得到值判断结果；

当所述值判断结果为否时，触发执行所述利用所述策略动作状态信息与所述动作状态信息之间的状态匹配关系，确定出待用动作策略信息；

当所述值判断结果为是时，触发执行所述利用策略评估优化模型对所述待用动作策略信息和所有所述历史目标策略状态信息进行计算，得到第一动作策略信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于所述待决策状态信息，确定出动作状态信息，包括：

对所述第二动作状态信息中的第二动作状态按序进行排序处理，得到策略状态序列信息；

对于所述第一动作状态信息中的任一所述第一动作状态，依据所述策略状态序列信息，生成所述B个电磁频谱策略向量；任意2个所述电磁频谱策略向量是不相一致的；所述电磁频谱策略向量中所有向量元素值之和不大于所述A；所述电磁频谱策略向量的向量元素值为0，和/或，1；

按所述电磁频谱策略向量的生成顺序，依序排列所述B个所述电磁频谱策略向量，得到电磁频谱策略矩阵；

构建所有所述电磁频谱策略矩阵进行并列对应关系，得到动作状态信息；所述并列对应关系表征任意2个所述电磁频谱策略矩阵中同一位置的矩阵元素不同时为1。

本发明实施例第二方面公开了一种用于电磁频谱行动协同的数据处理装置，装置包括：

获取模块，用于获取待决策状态信息；所述待决策状态信息包括第一动作状态信息和第二动作状态信息；所述第一动作状态信息包括A个第一动作状态；所述第二动作状态信息包括B个第二动作状态；所述A不小于所述B；

确定模块，用于基于所述待决策状态信息，确定出动作状态信息；所述动作状态信息包括所述B个并列排布的A*A矩阵；

得到模块，用于基于多智能体策略决策模型对所述动作状态信息进行处理，得到动作协同决策结果信息；所述动作协同决策结果信息用于指示电磁频谱行动的动作协同。

本发明第三方面公开了另一种用于电磁频谱行动协同的数据处理装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的用于电磁频谱行动协同的数据处理方法中的部分或全部步骤。

本发明第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明实施例第一方面公开的用于电磁频谱行动协同的数据处理方法中的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取待决策状态信息；待决策状态信息包括第一动作状态信息和第二动作状态信息；第一动作状态信息包括A个第一动作状态；第二动作状态信息包括B个第二动作状态；A不小于B；基于待决策状态信息，确定出动作状态信息；动作状态信息包括B个并列排布的A*A矩阵；基于多智能体策略决策模型对动作状态信息进行处理，得到动作协同决策结果信息；动作协同决策结果信息用于指示电磁频谱行动的动作协同。可见，本申请有利于提高电磁频谱行动协同效率和精确度，进而提高电磁频谱行动适应不同环境的能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种用于电磁频谱行动协同的数据处理方法的流程示意图；

图2是本发明实施例公开的一种用于电磁频谱行动协同的数据处理装置的结构示意图；

图3是本发明实施例公开的另一种用于电磁频谱行动协同的数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种用于电磁频谱行动协同的数据处理方法及装置有利于提高电磁频谱行动协同效率和精确度，进而提高电磁频谱行动适应不同环境的能力。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种用于电磁频谱行动协同的数据处理方法的流程示意图。其中，图1所描述的用于电磁频谱行动协同的数据处理方法应用于电磁频谱管理系统中，如用于电磁频谱行动协同的数据处理管理的本地服务器或云端服务器等，本发明实施例不做限定。如图1所示，该用于电磁频谱行动协同的数据处理方法可以包括以下操作：

101、获取待决策状态信息。

本发明实施例中，该待决策状态信息包括第一动作状态信息和第二动作状态信息；第一动作状态信息包括A个第一动作状态；第二动作状态信息包括B个第二动作状态；A不小于B。

102、基于待决策状态信息，确定出动作状态信息。

本发明实施例中，该动作状态信息包括B个并列排布的A*A矩阵。

103、基于多智能体策略决策模型对动作状态信息进行处理，得到动作协同决策结果信息。

本发明实施例中，动作协同决策结果信息用于指示电磁频谱行动的动作协同。

需要说明的是，上述A*A矩阵表征第一动作状态对第二动作状态的可能动作策略。

需要说明的是，上述多智能体策略决策模型是基于模型训练策略库中的模型训练策略进行训练得到的。进一步的，上述模型训练策略库包括日常策略库。日常策略库是由专业人员和历史方案协同制定一个基础的电磁频谱动作策略库作为初始数据集，再将电磁频谱动作策略库结合日常各种作战环境下导入神经网络进行训练，生成新的策略，然后通过人类专家打分和历史电磁频谱作战策略库的对比打分，选取神经网络生成的优质策略将其补充到电磁频谱作战策略库中，最后神经网络参数更新收敛后，停止训练过程，日常策略库生成结束。

进一步的，以神经网络为基础的策略生成库可以通过随机梯度下降的方式进行对将来新的未在库中出现的数据进行模型的在线更新，对模型进行微调，减少再次训练所花费的时间，降低策略库生成的成本。新约束条件依靠机器学习中的异常检测模块进行判定，异常检测模块将度量历史频谱约束和新出现频谱约束之间的Z-得分进异常检测，设历史频谱约束数据满足正态分布，均值和方差分别为μ和σ，则Z-得分表示可以为：

其中，为了判定哪些数据点是异常值，需要设定一个阈值τ。如果差异大于一定的阈值，异常检测模块将标记该样本，并将此样本进行人工标注，标注后，该样本将送入训练集中供模型更新，如果差异小于一定的阈值，则不作处理。通过日积月累的样本积累，策略库中的策略将越来越丰富，从而更好地应对复杂的战场形势。

需要说明的是，上述动作协同决策结果信息包括频段划分规则、优先级、保护频率、禁用频率、用频规避、频率抢占、地理限制、频率共用、用频行为限制、用频协同策略、调度策略、协调策略，本发明实施例不做限定。

需要说明的是，上述多智能体策略决策模型是基于训练梯度函数训练得到的，当训练梯度函数对应的梯度值收敛时，可得到多智能体策略决策模型。

进一步的，上述训练梯度函数为：

假设策略μ_i是不同子动作协同决策信息的集合，对于智能体f，子动作协同决策信息k由表示，μ为决策策略，E为期望，R_i(s,a)为智能体f的奖励值，s为状态，a为动作，k服从均匀分布，K为回合数，o为智能体观测到的状态，Q为状态动作值函数，/>为动作a_f的梯度算子。

可见，实施本发明实施例所描述的用于电磁频谱行动协同的数据处理方法有利于提高电磁频谱行动协同效率和精确度，进而提高电磁频谱行动适应不同环境的能力。

在一个可选的实施例中，上述基于多智能体策略决策模型对动作状态信息进行处理，得到动作协同决策结果信息，包括：

基于动作状态信息，确定出目标策略状态信息；目标策略状态信息表征B*A的矩阵；

获取策略处理次数；

判断策略处理次数是否满足次数阈值，得到次数判断结果；

当次数判断结果为是时，基于目标策略状态信息和所有历史目标策略状态信息，确定出动作协同决策结果信息；

当次数判断结果为否时，利用多智能体策略决策模型对目标策略状态信息进行计算处理，得到协同奖励值；

基于目标策略状态信息和协同奖励值，确定出动作协同决策结果信息。

需要说明的是，上述策略处理次数表征电磁频谱动作协同决策过程的数据处理次数，每次处理之后次数增加一次。

在该可选的实施例中，作为一种可选的实施方式，上述基于动作状态信息，确定出目标策略状态信息，包括：

获取策略动作状态信息；

基于策略动作状态信息与动作状态信息中电磁频谱策略矩阵的状态匹配关系，确定出M个目标电磁频谱动作策略向量；

将M个目标电磁频谱动作策略向量依据动作对象序列进行编码，得到目标策略状态信息。

需要说明的是，上述状态匹配关系可以是预先设定的，也可以是根据历史数据训练得到的，本发明实施例不做限定。

需要说明的是，上述策略动作状态信息表征第一动作状态与第二动作状态的动作匹配情况。

在该可选的实施例中，作为一种可选的实施方式，基于目标策略状态信息和所有历史目标策略状态信息，确定出动作协同决策结果信息，包括：

对目标策略状态信息和所有历史目标策略状态信息按策略状态信息对应的协同奖励值从大到小进行排序，得到策略状态序列；

确定策略状态序列中排序第一的策略状态信息为目标决策结果。

在另一个可选的实施例中，利用多智能体策略决策模型对目标策略状态信息进行计算处理，得到协同奖励值，包括：

判断目标策略状态信息中的是否存在矩阵元素全部为0的列，得到矩阵判断结果；

当矩阵判断结果为是时，确定协同奖励值为协同阈值；协同阈值为不大于0的整数；

当矩阵判断结果为否时，基于多智能体策略决策模型对目标策略状态信息进行计算，得到协同奖励值；

多智能体策略决策模型为：

需要说明的是，上述第一常数系数、第二常数系数和第三常数系数可以是用户设定的，也可以是由系统根据历史数据确定的，本发明实施例不做限定。

需要说明的是，上述目标策略状态信息中存在矩阵元素值全部为0的列表征第一动作状态没有全部被分配动作作用于第二动作状态。

在又一个可选的实施例中，基于目标策略状态信息和协同奖励值，确定出动作协同决策结果信息，包括：

判断协同奖励值是否满足策略优化条件，得到条件判断结果；策略优化条件表征协同奖励值优于协同阈值；

当条件判断结果为否时，对目标策略状态信息进行更新，并出发执行获取策略处理次数；

当条件判断结果为是时，确定目标策略状态信息为动作协同决策结果信息。

需要说明的是，上述协同阈值可以是用户设定的，也可以是由系统根据历史数据确定的，本发明实施例不做限定。

在又一个可选的实施例中，对目标策略状态信息进行更新，包括：

对目标策略状态信息的进行仿真分析，得到策略动作状态信息；

利用策略动作状态信息与动作状态信息之间的状态匹配关系，确定出待用动作策略信息；

利用策略评估优化模型对待用动作策略信息和所有历史目标策略状态信息进行计算，得到第一动作策略信息；

策略评估优化模型为：

其中，DDZ为第一动作策略信息对应的第一动作策略值；LCZ为所有历史目标策略状态信息对应的历史目标策略状态值；LCZx为待用动作策略信息对应的待用动作策略值；ε为评估系数；random()为待用动作策略信息对应的策略概率值；b₁和b₁为第四常数系数和第五常数系数；

利用策略更新优化模型将第一动作策略信息替换为新的目标策略状态信息；

策略更新优化模型为：

其中，Q(s1,a1)为在动作为a1，状态s1为时的新的目标策略状态信息；Q(s0,a0)为更新前在动作为a0，状态s0为时的目标策略状态信息；α为第一更新系数；γ为第二更新系数；Q(s′,a)为在动作为a，状态s′为时的第一动作策略信息。

需要说明的是，上述对目标策略状态信息的进行仿真分析是执行第一动作状态对应的策略动作以得到第二动作状态对应的状态情况。

在一个可选的实施例中，上述第一动作策略信息为B*A的矩阵；第一动作策略信息中的矩阵元素值包括0，和/或，1；

在利用策略评估优化模型对待用动作策略信息和所有历史目标策略状态信息进行计算，得到第一动作策略信息之后，方法还包括：

对第一动作策略信息中所有矩阵元素值进行累计求和处理，得到矩阵计算累计值；

判断矩阵计算累计值是否等于B，得到值判断结果；

当值判断结果为否时，触发执行利用策略动作状态信息与动作状态信息之间的状态匹配关系，确定出待用动作策略信息；

当值判断结果为是时，触发执行利用策略评估优化模型对待用动作策略信息和所有历史目标策略状态信息进行计算，得到第一动作策略信息。

在另一个可选的实施例中，基于待决策状态信息，确定出动作状态信息，包括：

对第二动作状态信息中的第二动作状态按序进行排序处理，得到策略状态序列信息；

对于第一动作状态信息中的任一第一动作状态，依据策略状态序列信息，生成B个电磁频谱策略向量；任意2个电磁频谱策略向量是不相一致的；电磁频谱策略向量中所有向量元素值之和不大于A；电磁频谱策略向量的向量元素值为0，和/或，1；

按电磁频谱策略向量的生成顺序，依序排列B个电磁频谱策略向量，得到电磁频谱策略矩阵；

构建所有电磁频谱策略矩阵进行并列对应关系，得到动作状态信息；并列对应关系表征任意2个电磁频谱策略矩阵中同一位置的矩阵元素不同时为1。

需要说明的是，上述策略状态序列信息是对第二动作状态进行标号，以便后续对第二动作状态更为便捷的高效有序处理。

实施例二

请参阅图2，图2是本发明实施例公开的一种用于电磁频谱行动协同的数据处理装置的结构示意图。其中，图2所描述的装置能够应用于电磁频谱管理系统中，如用于电磁频谱行动协同的数据处理管理的本地服务器或云端服务器等，本发明实施例不做限定。如图2所示，该装置可以包括：

获取模块201，用于获取待决策状态信息；待决策状态信息包括第一动作状态信息和第二动作状态信息；第一动作状态信息包括A个第一动作状态；第二动作状态信息包括B个第二动作状态；A不小于B；

确定模块202，用于基于待决策状态信息，确定出动作状态信息；动作状态信息包括B个并列排布的A*A矩阵；

得到模块203，用于基于多智能体策略决策模型对动作状态信息进行处理，得到动作协同决策结果信息；动作协同决策结果信息用于指示电磁频谱行动的动作协同。

可见，实施图2所描述的用于电磁频谱行动协同的数据处理装置有利于提高电磁频谱行动协同效率和精确度，进而提高电磁频谱行动适应不同环境的能力。

在另一个可选的实施例中，如图2所示，得到模块203基于多智能体策略决策模型对动作状态信息进行处理，得到动作协同决策结果信息，包括：

获取策略处理次数；

判断策略处理次数是否满足次数阈值，得到次数判断结果；

在又一个可选的实施例中，如图2所示，得到模块203利用多智能体策略决策模型对目标策略状态信息进行计算处理，得到协同奖励值，包括：

多智能体策略决策模型为：

在又一个可选的实施例中，如图2所示，得到模块203基于目标策略状态信息和协同奖励值，确定出动作协同决策结果信息，包括：

判断协同奖励值是否满足策略优化条件，得到条件判断结果；策略优化条件表征协同奖励值优于预设的协同阈值；

在又一个可选的实施例中，如图2所示，得到模块203对目标策略状态信息进行更新，包括：

策略评估优化模型为：

其中，DDZ为第一动作策略信息对应的第一动作策略值；LCZ为所有历史目标策略状态信息对应的历史目标策略状态值；LCZ_x为待用动作策略信息对应的待用动作策略值；ε为评估系数；random()为待用动作策略信息对应的策略概率值；b₁和b₁为第四常数系数和第五常数系数；

策略更新优化模型为：

在又一个可选的实施例中，如图2所示，第一动作策略信息为B*A的矩阵；第一动作策略信息中的矩阵元素值包括0，和/或，1；

在得到模块203利用策略评估优化模型对待用动作策略信息和所有历史目标策略状态信息进行计算，得到第一动作策略信息之后，方法还包括：

判断矩阵计算累计值是否等于B，得到值判断结果；

在又一个可选的实施例中，如图2所示，确定模块202基于待决策状态信息，确定出动作状态信息，包括：

实施例三

请参阅图3，图3是本发明实施例公开的又一种用于电磁频谱行动协同的数据处理装置的结构示意图。其中，图3所描述的装置能够应用于电磁频谱管理系统中，如用于电磁频谱行动协同的数据处理管理的本地服务器或云端服务器等，本发明实施例不做限定。如图3所示，该装置可以包括：

存储有可执行程序代码的存储器301；

与存储器301耦合的处理器302；

处理器302调用存储器301中存储的可执行程序代码，用于执行实施例一所描述的用于电磁频谱行动协同的数据处理方法中的步骤。

实施例四

本发明实施例公开了一种计算机可读读存储介质，其存储用于电子数据交换的计算机程序，其中，该计算机程序使得计算机执行实施例一所描述的用于电磁频谱行动协同的数据处理方法中的步骤。

实施例五

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，且该计算机程序可操作来使计算机执行实施例一所描述的用于电磁频谱行动协同的数据处理方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种用于电磁频谱行动协同的数据处理方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种用于电磁频谱行动协同的数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的用于电磁频谱行动协同的数据处理方法，其特征在于，所述基于多智能体策略决策模型对所述动作状态信息进行处理，得到动作协同决策结果信息，包括：

获取策略处理次数；

判断策略处理次数是否满足次数阈值，得到次数判断结果；

3.根据权利要求2所述的用于电磁频谱行动协同的数据处理方法，其特征在于，所述利用多智能体策略决策模型对所述目标策略状态信息进行计算处理，得到协同奖励值，包括：

所述多智能体策略决策模型为：

4.根据权利要求2所述的用于电磁频谱行动协同的数据处理方法，其特征在于，所述基于所述目标策略状态信息和所述协同奖励值，确定出所述动作协同决策结果信息，包括：

5.根据权利要求4所述的用于电磁频谱行动协同的数据处理方法，其特征在于，所述对所述目标策略状态信息进行更新，包括：

所述策略评估优化模型为：

所述策略更新优化模型为：

6.根据权利要求5所述的用于电磁频谱行动协同的数据处理方法，其特征在于，所述第一动作策略信息为B*A的矩阵；所述第一动作策略信息中的矩阵元素值包括0，和/或，1；

判断所述矩阵计算累计值是否等于所述B，得到值判断结果；

7.根据权利要求1所述的用于电磁频谱行动协同的数据处理方法，其特征在于，所述基于所述待决策状态信息，确定出动作状态信息，包括：

8.一种用于电磁频谱行动协同的数据处理装置，其特征在于，所述装置包括：

9.一种用于电磁频谱行动协同的数据处理装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的用于电磁频谱行动协同的数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的用于电磁频谱行动协同的数据处理方法。