CN115081519A - 基于强化学习的自动对星方法 - Google Patents

基于强化学习的自动对星方法 Download PDF

Info

Publication number
CN115081519A
CN115081519A CN202210639642.0A CN202210639642A CN115081519A CN 115081519 A CN115081519 A CN 115081519A CN 202210639642 A CN202210639642 A CN 202210639642A CN 115081519 A CN115081519 A CN 115081519A
Authority
CN
China
Prior art keywords
signal intensity
data
coordinate
information
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210639642.0A
Other languages
English (en)
Inventor
蔡熹
张明君
王宇庭
邓海锋
廖湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges Construction Engineering Co Ltd
Original Assignee
China Three Gorges Construction Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges Construction Engineering Co Ltd filed Critical China Three Gorges Construction Engineering Co Ltd
Priority to CN202210639642.0A priority Critical patent/CN115081519A/zh
Publication of CN115081519A publication Critical patent/CN115081519A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01QANTENNAS, i.e. RADIO AERIALS
    • H01Q3/00Arrangements for changing or varying the orientation or the shape of the directional pattern of the waves radiated from an antenna or antenna system
    • H01Q3/02Arrangements for changing or varying the orientation or the shape of the directional pattern of the waves radiated from an antenna or antenna system using mechanical movement of antenna or antenna system as a whole
    • H01Q3/08Arrangements for changing or varying the orientation or the shape of the directional pattern of the waves radiated from an antenna or antenna system using mechanical movement of antenna or antenna system as a whole for varying two co-ordinates of the orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Radio Relay Systems (AREA)

Abstract

基于强化学习的自动对星方法,包括:采集数据,构造预定组坐标系‑信号强度数据,并基于所述坐标系‑信号强度数据构建训练数据集和测试数据集;构建深度神经网络模块,配置奖励函数、可观测状态量和动作空间,以所述训练数据集作为输入数据,对深度神经网络模块进行训练预定的次数;采用测试数据集对训练好的深度神经网络模块进行测试,得到最终优化的深度神经网络模块。本方案通过自动化对星,可以大大提高对星的效率,提高工作质量。

Description

基于强化学习的自动对星方法
技术领域
本发明涉及通信技术,尤其是卫星通信中的对星方法。
背景技术
卫星通信技术是一种重要的无线通信手段,可以作为地震,海啸等自然灾害之后的应急通信手段。在这些应急救灾场景下,便携站有了极大的作用。相比于车载站,便携有着携带方便,可以快速部署的特点。但是,普通的便携站在启动之后都需要人工进行对星的操作,这需要操作人员对对星的方法有一定的了解。为此,技术人员开发了自动对星系统,搭载自动对星系统的卫星通信终端旨在降低操作人员的门槛,即使对对星方法不怎么了解的人员,也可以在开机之后简单、快捷地完成对星的过程。
但是目前市面上的搭载了自动对星系统的卫星通信终端,普遍需要2-3分钟才能完成对星,使用的算法基本也是基于扫描的方式。然而一个操作熟练的操作员完全可以在1分钟之内完成对星。找到一种人工智能算法可以快速高效地完成对星,用时接近或者超越人工对星的用时,是目前亟需解决的问题。
机器学习领域大致可以分为三个部分:监督学习,无监督学习以及强化学习。监督学习需要使用人工标注的数据进行训练,成本较高但效果往往较好。无监督学习不需要人工标注的数据,往往被用于聚类或者降维等任务。强化学习则与前面两种都不相同,它是在不确定的环境中,通过程序与环境不断地交互,获取大量的数据,来不断优化自身策略的算法。具体的区别如下:
1).交互取得的数据并非是独立的,同分布的。大部分的机器学习算法都假设数据之间相互独立,并且具有相同的分布,这样在训练的过程中,模型才会收敛。然而对于强化学习来说,当前的决策可能会影响到后续的数据的分布,所以无法保证数据之间互相独立,会导致算法的训练并不稳定。
2).没有强标签,且当前决策可能并不会立即获得反馈。在强化学习中,往往只有基于奖励函数的单一信号,并不会像监督学习一样有专门的样本标签。且智能体可能无法在单个样本中立即获得反馈,需要不断地试错,导致了强化学习往往需要训练很长时间。
3).有超越人类上限的可能。监督学习是基于人工标注的数据进行训练,其上限也是人类的上限。然而强化学习是从零开始和环境开始交互,没有人类地参与,不受人类先验知识的影响,有着超越人类表现得可能,典型的例子为AlphaGo曾经在围棋项目中击溃了所有的人类顶尖棋手。
如何采用强化学习算法解决当前自动对星的问题,需要技术人员深入地探索和研究。
发明内容
发明目的:提供一种基于强化学习的自动对星方法,以解决现有技术存在的上述问题。
技术方案:基于强化学习的自动对星方法,包括:
步骤1、采集数据,构造预定组坐标系-信号强度数据,并基于所述坐标系-信号强度数据构建训练数据集和测试数据集;
步骤2、构建深度神经网络模块,配置奖励函数、可观测状态量和动作空间,以所述训练数据集作为输入数据,对深度神经网络模块进行训练预定的次数;
步骤3、采用测试数据集对训练好的深度神经网络模块进行测试,得到最终优化的深度神经网络模块。
根据本申请的一个方面,所述奖励函数为:R=ΔS+1/(Smax-Si);
式中,Smax为最大信号强度;ΔS表示当前信号的变化量,Si表示当前信号的强度,i为自然数。
根据本申请的一个方面,所述可观测状态量包括:当前所观测到的信号强度Si、上一步所执行的动作,以及当前动作所导致的信号强度的变化量ΔS。
根据本申请的一个方面,所述动作空间包括:俯仰角增加Δx°,俯仰角减小Δx°,方位角增加Δx°,以及方位角减小Δx°。
根据本申请的一个方面,所述采集数据的过程包括如下步骤:
步骤11、启动终端设备,使用搜索算法进行对星,获得当前坐标下可以获得的最大信号强度;
步骤12、在获得当前坐标的最大信号强度后,暂停搜索算法程序,打开调试接口,转动天线,获取包括俯仰角和方位角在内的坐标参数;
步骤13、启动数据采集程序,扫描预定范围的区域,记录各个坐标下的最大信号强度并存储,基于坐标系-信号强度数据构建信号强度热力图。
根据本申请的一个方面,还包括数据预处理过程:
步骤14、读取预定张所述信号强度热力图,任意选取两张信号强度热力图,采用滑动窗方法分别将其分成若干图像模块,计算两张信号强度热力图中对应图像模块的结构相似度,将各个模块的平均相似度作为两张信号强度热力图的SSIM相似度,并基于预设阈值对所述信号强度热力图进行分类,形成N组信号强度热力图;
步骤15、获取每组信号强度热力图,拟合出该组信号强度热力图对应的信号强度梯度分布等高线,获取信号强度局部极值点、区域最值点数量,以及局部极值点和区域最值点对应的坐标;
步骤16、针对每组信号强度热力图,计算任意点到区域最值点的可行路径,生成可行坐标域。
根据本申请的一个方面,还包括:
步骤0、基于天气情况、环境遮挡反射情况,将数据采集过程分成若干类,针对每类情况采集数据。
根据本申请的一个方面,所述步骤13还包括获取各个坐标下的最大信号强度后,采用贝叶斯网络分析是否存在异常数据:
在训练时采用多个终端设备在不同时刻对当前坐标区域的最大信号强度进行采集;
将各组坐标数据、最大信号强度、卫星信息、电机信息、终端设备信息、天线信息、频率信息、天气信息和环境信息输入贝叶斯网络,训练生成贝叶斯网络结构;
在使用时,将所述各组坐标数据和最大信号强度信息输入贝叶斯网络结构,并结合当前终端设备的卫星信息、电机信息、终端设备信息、天线信息和频率信息,以及当前终端设备所处的天气信息和环境信息,与训练好的贝叶斯网络结构进行对比,判断贝叶斯网络结构中的节点数据是否偏离正常值,若偏离异常值,则给予异常值标注。
根据本申请的一个方面,采用滑动窗口算法统计坐标对应的最大信号强度数据的方差变化量,以连续若干个相邻滑动窗口的方差差值的平均值是否大于预设值作为判断是否存在异常值的标准。
根据本申请的一个方面,步骤14还包括:在使用时,在采集预定组数据,形成局部的信号强度热力图后,判断信号各坐标下的最大强度是否低于预期值,若信号低于预期值,则标注为弱信号区域;采用信号等比变换增强方法调整各坐标下的信号最大强度。
有益效果:本申请通过基于强化学习的自动对星系统,大大提高了对星的效率,提高了工作效率。
附图说明
图1是本发明的拓扑结构简图。
图2a和图2b是本发明不同实施例的信号热力图。
图3是本发明的训练和测试模型简图。
具体实施方式
如图1所示,提供一种基于强化学习的自动对星方法,主要包括如下步骤:
步骤1、采集数据,构造预定组坐标系-信号强度数据,并基于所述坐标系-信号强度数据构建训练数据集和测试数据集;
步骤2、构建深度神经网络模块,配置奖励函数、可观测状态量和动作空间,以所述训练数据集作为输入数据,对深度神经网络模块进行训练预定的次数;
奖励函数为:R=ΔS+1/(Smax-Si);
式中,Smax为最大信号强度;ΔS表示当前信号的变化量,Si表示当前信号的强度,为自然数,表示训练次数。
可观测状态量包括:当前所观测到的信号强度Si、上一步所执行的动作,以及当前动作所导致的信号强度的变化量ΔS;
动作空间包括:俯仰角增加Δx°,俯仰角减小Δx°,方位角增加Δx°,以及方位角减小Δx°。
步骤3、采用测试数据集对训练好的深度神经网络模块进行测试,得到最终优化的深度神经网络模块。
通过优化后的深度神经网络模块,可以大大提高自动化对星的速度,减少人工工作量。通过对深度神经网络模块的训练次数和输入数据的优化,可以不断提高对星的效率。
为了获得训练数据,在开始时需要采集不同场景下的输入数据,具体而言,数据采集过程如下所述。
根据本申请的一个方面,所述采集数据的过程包括如下步骤:
步骤11、启动终端设备,使用搜索算法进行对星,获得当前坐标下可以获得的最大信号强度;
步骤12、在获得当前坐标的最大信号强度后,暂停搜索算法程序,打开调试接口,转动天线,获取包括俯仰角和方位角在内的坐标参数;
步骤13、启动数据采集程序,扫描预定范围的区域,记录各个坐标下的最大信号强度并存储,基于坐标系-信号强度数据构建信号强度热力图。
为了对神经网络进行训练,需要较多的训练数据,因此在不同状态、不同场景、不同区域的情况下,采集数据并存储,作为后续的训练数据。一般而言,基于天气情况、环境遮挡反射情况,将数据采集过程分成若干类,针对每类情况采集数据。
对于多维度的海量数据,如果采用矩阵的方式直接对数据进行挖掘,则存在至少两个问题,一个是数据耦合导致训练工作量很大,对矩阵进行主成分或稀疏化处理,又有较大的难度,二是无法直观地展示信号强度的分布情况,无法从整体上分析信号强度的空间分布。也就是说,如果从数据层面开始分析,则更多地集中于细节的处理,而没法更好地反应整体的数据时空分布特征。
为了提高训练数据的质量,提高深度神经网络的输出效果,还需要对数据进行预处理。
因此根据本申请的一个方面,还提供了一种数据预处理方法:
步骤14、读取预定张所述信号强度热力图,任意选取两张信号强度热力图,采用滑动窗方法分别将其分成若干图像模块,计算两张信号强度热力图中对应图像模块的结构相似度,将各个模块的平均相似度作为两张信号强度热力图的SSIM相似度(SSIM指Structural Similarity Index measure,结构相似性指数)。并基于预设阈值对所述信号强度热力图进行分类,形成N组信号强度热力图;
步骤15、获取每组信号强度热力图,拟合出该组信号强度热力图对应的信号强度梯度分布等高线,获取信号强度局部极值点、区域最值点数量,以及局部极值点和区域最值点对应的坐标;
步骤16、针对每组信号强度热力图,计算任意点到区域最值点的可行路径,生成可行坐标域。
也就是说,天气情况不同、环境遮挡情况不同,信号强度的分布是不相同的,因此通过对不同场景下的数据进行采集,并进行分类,可以获得更有针对性的训练数据。
比如,在天气情况不好时,信号整体偏弱,因此某一区域的最大信号强度均成一定程度的下降。而在有信号反射的情况下,可能会出现多个区域最大值或极大值。形成二维丘陵式分布,比如形成两个信号强度最大值极值(可以相同或不同),形成马鞍状分布,因此在对星时,路径会有很大的不同。因此,在不同的情况下,如果采用相同的算法,神经网络的效率会发生明显的不同。更为重要的是,在A场景下训练的深度神经网络模型,在B场景下使用时无法达到最优的效率。因此如何区分不同场景下的信号强度分布,从而有针对性的进行训练,获得更好的使用效果,是非常重要的。
在实际场景中,不同因素造成的信号分布可能是相似的,因此通过对信号强度热力图的研究,即可将场景进行归类,减少训练数据的分类情况,获得更快的训练效率。
更为重要的是,在这个场景下,如果采用现有的分析方法,一般是构建输入数据矩阵,直接通过神经网络进行矩阵分析获得数据的耦合关系、因果关系,从而生成可用的模型。由于不同场景下的参数差异性较大,仅仅进行数据分析,无法获取数据的时空分布特征,或者说无法获得数据的时空结构,也无法展示数据的时空分布特征。因此,拘泥于细节,在当前的场景下,会造成整体分布特征的减弱。
因此,通过将数据表征为时空分布热力图,然后通过图像处理的方法,对其进行分类,获得信号强度数据的时空分布特征,根据不同的类别,为后续的训练提供有效指导。
根据实验结果,这种思路获得的深度神经网络模型,训练速度更快且效果更好。
由于训练数据和场景不同,一些训练数据可能会存在异常值,会对训练造成影响,为了减少异常值造成的影响,可以通过对数据的结构进行分析,挑出异常值数据。
根据本申请的一个方面,所述步骤13还包括获取各个坐标下的最大信号强度后,采用贝叶斯网络分析是否存在异常数据:
在训练时采用多个终端设备在不同时刻对当前坐标区域的最大信号强度进行采集;
将各组坐标数据、最大信号强度、卫星信息、电机信息、终端设备信息、天线信息、频率信息、天气信息和环境信息输入贝叶斯网络,训练生成贝叶斯网络结构;
在使用时,将所述各组坐标数据和最大信号强度信息输入贝叶斯网络结构,并结合当前终端设备的卫星信息、电机信息、终端设备信息、天线信息和频率信息,以及当前终端设备所处的天气信息和环境信息,与训练好的贝叶斯网络结构进行对比,判断贝叶斯网络结构中的节点数据是否偏离正常值,若偏离异常值,则给予异常值标注。
根据本申请的一个方面,采用滑动窗口算法统计坐标对应的最大信号强度数据的方差变化量,以连续若干个相邻滑动窗口的方差差值的平均值是否大于预设值作为判断是否存在异常值的标准。
在实际使用过程中发现,出现异常的原因较多,有可能是设备问题,有可能是操作问题,还有可能是时空物理环境造成的信号漂移问题。而异常值常常会影响训练和使用的准确性,因此如果能够将训练数据中的异常值筛查出来,就可以获得更好的训练效果。如果能在使用时,及时发现异常值,也可以提高对星的速度。因此,本申请构建了一种基于贝叶斯网络的异常值筛选方法,通过贝叶斯网络对训练数据和使用时采集的数据进行筛选,获得有效数据。通过这种方式,如果某个操作或参数改变,导致的信号强度变化超过预定的数值,则可以判断该窗口中出现异常情况。因此,通过这种方法,可以快速对数据进行有效处理,为后续的训练提供帮助。
根据本申请的一个方面,步骤14还包括:在使用时,在采集预定组数据,形成局部的信号强度热力图后,判断信号各坐标下的最大强度是否低于预期值,若信号低于预期值,则标注为弱信号区域;采用信号等比变换增强方法调整各坐标下的信号最大强度。
也就是说,在对信号热力强度分布图进行分析和分类后,可以获得信号强度热力图的拓扑结构,在使用时,通过少数数据生成拓扑结构,然后与训练出来的拓扑结构进行比较,可以快速找到与之对应的最优路径,从而可以获得更快的对星路径,提高对星效率。通过不同时间阶段获取的局部对星数据,与训练生成的若干全局数据对比,找到最相似的情况,并获取该情况下最优对星路径,从而可以大大加快对星效率。
比如,在某种情况下,使用已经训练好的深度神经网络模块进行对星时,在第一阶段,例如0.1秒内获得的信号强度数据和坐标数据,可以生产当前局部区域的拓扑结构,然后与训练好的拓扑结构进行相似度计算,查找到可能的相似路径,从而为后续的对星提供帮助。例如在训练过程中,获得某种拓扑结构A、B、C,在某次对星的过程中,局部拓扑结构与A相似,则可以按照拓扑结构A对应的最优对星路径进行对星,快速进行对星,减少对星时间。而由于场景等因素,信号强度分布会呈现若干种情形。一旦在出现类似的拓扑结构,则可以按照已经训练好的对星路径进行。
实施例一
提供一种深度Q网络算法(Deep Q Network,DQN),该算法的核心是优化Q函数,并使用它进行决策。在达到每一个状态st之后,该算法需要对动作空间中的每一个动作进行估计,使用动作值函数最大的动作作为策略:
at=arg max Qπ(st,a)
为了防止进入局部最优解之后保持震荡,该算法采用了ε贪心算法去探索环境,即模型在做出决策之前,有ε∈[0,1]的概率使用随机策略;只有1-ε的概率会使用模型动作值函数计算所得出的最优策略。
定义动作空间中的动作如下:
1).俯仰角增加0.1°
2).俯仰角减少0.1°
3).方位角增加0.1°
4).方位角减少0.1°
可观测状态如下:
a).当前所观测到的信号强度(db)
b).上一步所执行的动作
c).当前动作所导致的信号强度的变化量
所使用的奖励函数如下:
Figure BDA0003683284030000081
该式中的最大信号强度是一个经验值,通常设置为比实际测量所得到的最大的信号强度大一些,即在实际对星的过程中,信号强永远无法达到该数值。ΔSingal Strength则表示当前信号的变化量。
本实施例采用的神经网络的结构如图1所示该模型的输入是当前环境中可观测的状态,输出则是模型认为在该状态下应该采取的动作。除了输入和输出层之外,还增加了3层全连接隐藏层,分别拥有256,64,16个神经元。所使用的非线性激活函数为 Relu,相比于传统的sigmoid函数,Relu具有收敛快,计算量小等优点。输出层采用softmax 作为激活函数。模型对应的公式如下所示:
H1=Relu(w1x+b1)
H2=Relu(w2H1+b2)
H3=Relu(w3H2+b3)
Y=Softmax(w4H3+b4)
Relu(α)=max(0,α)
Figure BDA0003683284030000082
式中Hi表示隐藏层i的输出,x表示模型的输入,wi表示每一层的权重矩阵,bi则表示每一层的偏置向量,Y表示模型最后的输出。
本实施例所使用的优化算法为Adam。相比于传统的SGD算法,Adam可以让模型在陷入沟壑时加速损失在正确的方向下降,并且抑制震荡。并且Adam可以在对一阶和二阶动量做偏置校正之后再进行更新,保证迭代较为平稳。其优化过程的伪代码如下所示:
初始化:α(学习率),β1,β2∈[0,1)(动量的指数衰减率),f(θ)(含有参数θ的目标函数),θ0(初始参数),m0←0(初始化一阶动量为0),v0←0(初始化二阶动量为0),t←0(初始化时间戳为0)
当θt未收敛时{t←t+1
Figure BDA0003683284030000091
#获取当前的梯度
mt←β1·mt-1+(1-β1)·gt#更新一阶动量的偏置
vt←β2·vt-1+(1-β2)·gt 2#更新二阶动量的偏置
Figure BDA0003683284030000092
#计算偏置校正之后的一阶动量
Figure BDA0003683284030000093
#计算偏置校正之后的二阶动量
Figure BDA0003683284030000094
#更新参数
}
返回θt
本发明使用的数据为公开数据。所采用的对星质量的评价指标为信号强度(dB),
采集数据所使用的资源如下表所示:
Figure BDA0003683284030000095
采集到的信号强度热力图如附图2a和图2b所示:此处所采用的坐标系为地北天坐标系,x轴表示方位角,0.0°所表示的角度为-35.7°;y轴表示俯仰角,0.0°所表示的角度为+35.9°。该场景下终端可接收到的最大信号强度为74.9dB。在初始环境时,系统会在该范围内随机生成一个坐标作为起始点。
本发明训练了100个epoch,每个epoch中含有10000个step。初始的学习率被设置为0.0001。所使用强化学习框架为天授,该平台是由清华大学开发的基于pytorch的深度强化学习平台。该平台将各个强化学习算法模块化,在可以针对任意环境进行交互与采样功能,并且还配备了完整的文档,开发难度较低。搭建模拟环境所使用的框架为 OpenAI Gym。
具体的训练过程如附图所示:首先创建两个分开、独立的环境分别用于训练和测试。然后创建两个采集器去分别和这两个环境交互,收集训练数据以及测试数据。最后将采集到的训练数据放入模型中进行训练,训练数据用于模型最后的评估。
3.训练结果
训练结果如下表所示:
Figure BDA0003683284030000101
该表中的测试数据均为100次模拟对星结果的平均值。每次模拟对星进行600次移动,按照每移动0.1°耗时0.1s计算,每次对星过程在1分钟左右。由结果可以看出,该算法达到了接近人类对星的效果,如果训练次数增加,速度可以更快。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。

Claims (10)

1.基于强化学习的自动对星方法,其特征在于,包括:
步骤1、采集数据,构造预定组坐标系-信号强度数据,并基于所述坐标系-信号强度数据构建训练数据集和测试数据集;
步骤2、构建深度神经网络模块,配置奖励函数、可观测状态量和动作空间,以所述训练数据集作为输入数据,对深度神经网络模块进行训练预定的次数;
步骤3、采用测试数据集对训练好的深度神经网络模块进行测试,得到最终优化的深度神经网络模块。
2.如权利要求1所述的基于强化学习的自动对星方法,其特征在于,所述奖励函数为:R=∆S+1/(Smax-Si);
式中,Smax为最大信号强度;∆S表示当前信号的变化量,Si表示当前信号的强度,i为自然数。
3.如权利要求2所述的基于强化学习的自动对星方法,其特征在于,所述可观测状态量包括:当前所观测到的信号强度Si、上一步所执行的动作,以及当前动作所导致的信号强度的变化量∆S。
4.如权利要求3所述的基于强化学习的自动对星方法,其特征在于,所述动作空间包括:俯仰角增加∆x°,俯仰角减小∆x°,方位角增加∆x°,以及方位角减小∆x° 。
5.如权利要求1所述的基于强化学习的自动对星方法,其特征在于,所述采集数据的过程包括如下步骤:
步骤11、启动终端设备,使用搜索算法进行对星,获得当前坐标下可以获得的最大信号强度;
步骤12、在获得当前坐标的最大信号强度后,暂停搜索算法程序,打开调试接口,转动天线,获取包括俯仰角和方位角在内的坐标参数;
步骤13、启动数据采集程序,扫描预定范围的区域,记录各个坐标下的最大信号强度并存储,基于坐标系-信号强度数据构建信号强度热力图。
6.如权利要求5所述的基于强化学习的自动对星方法,其特征在于,还包括数据预处理过程:
步骤14、读取预定张所述信号强度热力图,任意选取两张信号强度热力图,采用滑动窗方法分别将其分成若干图像模块,计算两张信号强度热力图中对应图像模块的结构相似度,将各个模块的平均相似度作为两张信号强度热力图的SSIM相似度,并基于预设阈值对所述信号强度热力图进行分类,形成N组信号强度热力图;
步骤15、获取每组信号强度热力图,拟合出该组信号强度热力图对应的信号强度梯度分布等高线,获取信号强度局部极值点、区域最值点数量,以及局部极值点和区域最值点对应的坐标;
步骤16、针对每组信号强度热力图,计算任意点到区域最值点的可行路径,生成可行坐标域。
7.如权利要求5所述的基于强化学习的自动对星方法,其特征在于,还包括:
步骤0、基于天气情况、环境遮挡反射情况,将数据采集过程分成若干类,针对每类情况采集数据。
8.如权利要求7所述的基于强化学习的自动对星方法,其特征在于,所述步骤13还包括获取各个坐标下的最大信号强度后,采用贝叶斯网络分析是否存在异常数据:
在训练时采用多个终端设备在不同时刻对当前坐标区域的最大信号强度进行采集;
将各组坐标数据、最大信号强度、卫星信息、电机信息、终端设备信息、天线信息、频率信息、天气信息和环境信息输入贝叶斯网络,训练生成贝叶斯网络结构;
在使用时,将所述各组坐标数据和最大信号强度信息输入贝叶斯网络结构,并结合当前终端设备的卫星信息、电机信息、终端设备信息、天线信息和频率信息,以及当前终端设备所处的天气信息和环境信息,与训练好的贝叶斯网络结构进行对比,判断贝叶斯网络结构中的节点数据是否偏离正常值,若偏离异常值,则给予异常值标注。
9.如权利要求8所述的基于强化学习的自动对星方法,其特征在于,采用滑动窗口算法统计坐标对应的最大信号强度数据的方差变化量,以连续若干个相邻滑动窗口的方差差值的平均值是否大于预设值作为判断是否存在异常值的标准。
10.如权利要求1所述的基于强化学习的自动对星方法,其特征在于,步骤14还包括:在使用时,在采集预定组数据,形成局部的信号强度热力图后,判断信号各坐标下的最大强度是否低于预期值,若信号低于预期值,则标注为弱信号区域;采用信号等比变换增强方法调整各坐标下的信号最大强度。
CN202210639642.0A 2022-06-08 2022-06-08 基于强化学习的自动对星方法 Pending CN115081519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210639642.0A CN115081519A (zh) 2022-06-08 2022-06-08 基于强化学习的自动对星方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210639642.0A CN115081519A (zh) 2022-06-08 2022-06-08 基于强化学习的自动对星方法

Publications (1)

Publication Number Publication Date
CN115081519A true CN115081519A (zh) 2022-09-20

Family

ID=83251206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210639642.0A Pending CN115081519A (zh) 2022-06-08 2022-06-08 基于强化学习的自动对星方法

Country Status (1)

Country Link
CN (1) CN115081519A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116366131A (zh) * 2023-03-22 2023-06-30 中国电信股份有限公司卫星通信分公司 移动终端与卫星通信的调整方法、装置及系统
CN116366131B (zh) * 2023-03-22 2024-07-16 中国电信股份有限公司卫星通信分公司 移动终端与卫星通信的调整方法、装置及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116366131A (zh) * 2023-03-22 2023-06-30 中国电信股份有限公司卫星通信分公司 移动终端与卫星通信的调整方法、装置及系统
CN116366131B (zh) * 2023-03-22 2024-07-16 中国电信股份有限公司卫星通信分公司 移动终端与卫星通信的调整方法、装置及系统

Similar Documents

Publication Publication Date Title
CN110569793B (zh) 一种无监督相似性判别学习的目标跟踪方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN106355151B (zh) 一种基于深度置信网络的三维sar图像目标识别方法
CN112887902B (zh) 一种基于高斯聚类与混合度量的WiFi指纹的室内定位方法
CN111353413A (zh) 一种输电设备低漏报率缺陷识别方法
CN112149721B (zh) 一种基于主动学习降低标注需求的目标检测方法
CN113378676A (zh) 基于多特征融合的图像中人物交互检测方法
CN112558185A (zh) 基于注意力机制的双向gru台风轨迹智能预测预报系统、计算机设备、存储介质
CN110210550A (zh) 基于集成学习策略的图像细粒度识别方法
CN111539422A (zh) 基于Faster RCNN的飞行目标协同识别方法
CN112950780A (zh) 一种基于遥感影像的网络地图智能生成方法及系统
KR102248963B1 (ko) 해무 예측 방법 및 그 장치
CN113468703A (zh) 一种ads-b报文异常检测器及检测方法
CN113158835A (zh) 一种基于深度学习的交通事故智能检测方法
Hu et al. Building occupancy detection and localization using CCTV camera and deep learning
CN115953666A (zh) 一种基于改进Mask-RCNN的变电站现场进度识别方法
CN113271539B (zh) 一种基于改进的cnn模型的室内目标定位方法
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN113887330A (zh) 一种基于遥感图像的目标检测系统
CN117237902A (zh) 基于深度学习的机器人物体识别系统
CN111950500A (zh) 基于改进YOLOv3-tiny的工厂环境下实时行人检测方法
CN115081519A (zh) 基于强化学习的自动对星方法
CN114710831B (zh) 一种基于深度学习的rfid标签定位系统
CN113343924B (zh) 一种基于循环谱特征和生成对抗网络的调制信号识别方法
Kästner et al. A bayesian approach to learning 3d representations of dynamic environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination