CN116051632A - 一种双通道transformer卫星六自由度姿态估计算法 - Google Patents

一种双通道transformer卫星六自由度姿态估计算法 Download PDF

Info

Publication number
CN116051632A
CN116051632A CN202211612567.5A CN202211612567A CN116051632A CN 116051632 A CN116051632 A CN 116051632A CN 202211612567 A CN202211612567 A CN 202211612567A CN 116051632 A CN116051632 A CN 116051632A
Authority
CN
China
Prior art keywords
pose
satellite
transducer
loss
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211612567.5A
Other languages
English (en)
Other versions
CN116051632B (zh
Inventor
任元
叶瑞达
陈晓岑
王煜晶
王丽芬
朱向阳
吴昊
张睿祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Original Assignee
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Liberation Army Strategic Support Force Aerospace Engineering University filed Critical Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Publication of CN116051632A publication Critical patent/CN116051632A/zh
Application granted granted Critical
Publication of CN116051632B publication Critical patent/CN116051632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

一种双通道transformer卫星六自由度姿态估计算法。所述算法流程包括:卫星图像数据预处理模块,通过EfficientNet主干网络提取图像特征,并随机选取主干网络层中的特征分别输入至双通道transformer位姿推理网络,经过位姿优化联合损失函数计算模型输出与标签损失距离,并反向传播给模型进行迭代训练。针对预测信息特点设计了一种四元数熵激活函数,将旋转量transformer模块输出的四元数信息进行归一化,有效提升了旋转量推理精度。设计了一种位姿优化联合损失函数,通过调节优化因子平衡旋转量和平移量误差值,从而提升模型的训练效果。该算法解决了空间非合作目标位姿估计中探测流程繁琐、效率低等问题,为在轨探测提供了一种智能算法。

Description

一种双通道transformer卫星六自由度姿态估计算法
技术领域
本发明涉及目标探测领域,特别涉及一种双通道transformer卫星六自由度姿态估计算法。
背景技术
非合作目标位姿估计是航天领域亟需解决的难题,其在导航、太空垃圾清理、交会对接和在轨维修等方面都具有极具重要的应用价值。针对在轨工作的特殊环境,基于低质量、低功耗单目相机的姿态估计算法为空间应用提供一种切实可行的方案,受到了国内外科研机构和研究人员的广泛关注,其中部分科研机构针对单目视觉相机非合作目标位姿估计展开了相关研究和半物理仿真实验。与单目相机相比,激光雷达和深度相机的作用范围小、体积大、功耗高,且在使用时更受制于复杂的空间环境。因此,使用单目相机拍摄的数据更符合非合作目标位姿估计。
随着transformer模型在语音识别领域使用,受到了工业界和学术界的广泛关注,该模型在自然语言处理、语音识别等时序信息特征中获得巨大的成功。其核心组件自注意力机制具备强大的特征提取和时序关联能力,即融合了卷积神经网络和循环神经网络的优点。随后在计算机视觉领域,以vision transformer和DETR为首的transformer模型在图像识别和目标检测等视觉领域取得了优异的成绩。
公开号CN 114842078A的发明专利公开了“一种基于深度学习的双通道卫星姿态估计网络”,使用了ResNet作为特征提取主干网络,使用了两种不同的网络进行位姿回归,但在旋转量推理中未对四元数推理值进行归一化,其推理精度较低。授权公开号CN109931925B的发明专利公开了“基于序列图像轴线的空间翻滚卫星自旋姿态优化估计方法”,通过采集序列二维卫星图像,提取序列二维卫星图像轴线,确定卫星姿态信息,该方法过程繁琐、识别效率低。
发明内容
(一)发明目的
本发明的目的是提供通过一种双通道transformer卫星六自由度姿态估计算法。本发明通过使用深度学习智能方法,提出了一种双通道transformer卫星六自由度姿态估计算法,首先使用EfficientNet主干网络提取图像特征,并随机选取主干网络层中的特征分别输入至双通道transformer位姿推理网络,经过位姿优化联合损失函数计算模型输出与标签损失距离,并反向传播给模型进行迭代训练,有效解耦了卫星姿态的平移量和旋转量,成功解决了基于单目视觉的空间非合作目标位姿估计中探测流程繁琐、效率低等问题。
(二)技术方案
本发明的技术解决方案,一种双通道transformer卫星六自由度姿态估计算法,其特征在于,包括:卫星图像数据预处理模块,通过EfficientNet主干网络提取图像特征,并随机选取主干网络层中的特征分别输入至双通道transformer位姿推理网络,经过位姿优化联合损失函数计算模型输出与标签损失距离,并反向传播给模型进行迭代训练,该方法的由如下步骤构成。
卫星图像数据预处理模块,卫星图像需要进行相关预处理,使得卫星图像能够按照指定尺寸输入至EfficientNet主干网络中,同时可根据数据集特点进行相关数据增强,如随机亮度、对比度调整和模糊等处理手段。
经过预处理后的图像数据,输入至EfficientNet主干网络中,其输入尺寸为224*224*3的特征图,使用32个3*3*3、步长为2*2的卷积层,经过归一化和Swish激活函数处理后得到112*112*32的特征图,在经过初步处理后,特征进入16个不同的MBConv层,最后输出大小为7*7*1280的特征图。并随机选取主干网络层中的特征分别输入至双通道transformer位姿推理网络。
双通道transformer位姿推理网络包括:平移量transformer和旋转量transformer;其中旋转量transformer主要由多个transformer组件、展平层和含四个神经元的全连接层组成,神经元使用四元数熵激活函数,平移量transformer主要由多个transformer组件、展平层和含三个神经元的全连接层组成。经过EfficientNet主干网络提取的特征经过双通道transformer位姿推理网络后,会分别输出3个值和4个值,分别对应卫星姿态的平移量旋转量,其中,在旋转量transformer中,使用的四元数熵激活函数,主要解决卫星姿态的旋转量[q0,q1,q2,q3]受q0 2+q1 2+q2 2+q3 2=1约束的问题,其表达式为:
Figure BDA0003999726040000031
该激活函数输出四个值,输出结果符合卫星姿态旋转信息的特点。
位姿优化联合损失函数计算模型输出与标签损失距离,通过调节优化因子平衡旋转量和平移量误差值,提升模型的训练效果,其中平移量损失函数为,
Lt=||tgt-test||2                            (2)Lt为平移量损失距离,旋转量损失函数,
Lq=||qgt-qest||2                            (3)
Lq为旋转量损失距离,位姿优化联合损失函数,
Lloss=Ltexp(-st)+Lqexp(-sq)               (4)
其中,Lq为位姿联合损失距离,tgt和qgt是真实标签,test和qest是模型推理值,st和sq是优化因子,用来调节平移量损失函数和旋转量损失函数比重系数,计算出的损失值反向传播给模型进行迭代训练。
本发明实现了一种双通道transformer卫星六自由度姿态估计算法,提出一种双通道transformer网络,成功解耦了卫星姿态的旋转量和平移量。针对预测信息特点设计了一种四元数熵激活函数,将旋转量transformer模块输出的四元数信息进行归一化,有效提升了旋转量推理精度。设计了一种位姿优化联合损失函数,通过调节优化因子平衡旋转量和平移量误差值,从而提升模型的训练效果。
(三)本发明的主要优点
本发明的上述技术方案具有如下优点:本发明被用于卫星六自由度姿态估计,提出了一种双通道transformer网络,可以有效解耦卫星姿态的旋转量和平移量。针对预测信息特点设计了一种四元数熵激活函数,将旋转量transformer模块输出的四元数信息进行归一化,有效提升了旋转量推理精度。
附图说明
图1是本发明的流程框架图;
图2是本发明实施例EfficientNet主干网络结构图。
具体实施方式
为使本发明的技术方案、优点和目的更加清楚明了,结合具体实例说明了方法流程并参照附图,对本发明的技术方案进一步说明。
本发明实施例1,一种双通道transformer卫星六自由度姿态估计算法,参见图1,按下述步骤进行:
使用欧空局提供的公开数据集SPEED,该数据集的训练集中有12000张合成图像,测试集有2998张合成图像,并提供了5张带标签的真实图像,图像尺寸大小为1920×1200像素。该数据集通过半物理仿平台拍摄“Tango”卫星模型,通过后处理技术剔除相关背景,并在部分图像中随机添加地球背景,丰富数据集信息,提供数据集的可靠性和鲁棒性。
对SPEED中的卫星图像数据进行预处理,使用随机亮度进行卫星图像数据增强,并将图片处理成224*224*3的尺寸。
经过预处理后的图像数据,输入至EfficientNet主干网络中,其输入尺寸为224*224*3的特征图,使用32个3*3*3、步长为2*2的卷积层,经过归一化和Swish激活函数处理后得到112*112*32的特征图,在经过初步处理后,特征进入16个不同的MBConv层,最后输出大小为7*7*1280的特征图,其结构如图2所示。
随机选取EfficientNet主干网络的特征图,分别输入至平移量transformer和旋转量transformer中。在旋转量transformer中,使用M个transformer组件,通过transformer的特征经过展平层生成512*1的特征,随后进入由四个神经元组成的全连接层,该全连接层的神经元使用四元数熵激活函数,其公式为:
Figure BDA0003999726040000051
在平移量transformer中,使用N个transformer组件,通过transformer的特征经过展平层生成512*1的特征,随后进入由三个神经元组成的全连接层,可通过调试M和N得到最优模型。
由平移量transformer输入的三个值,使用公式,
Lt=||tgt-test||2                            (2)
得到平移量损失值Lt,由旋转量transformer输入的四个值,使用公式,
Lq=||qgt-qest||2                            (3)
得到旋转量损失值Lq,使用位姿优化联合损失函数,
Lloss=Ltexp(-st)+Lqexp(-sq)               (4)
计算模型输出值和标签损失距离Lloss,并反向传播给模型进行的迭代训练。
针对卫星姿态估计结果,欧空局提供了相关评价指标,其中旋转量的评分标准ER为旋转向量误差的夹角:
ER=2arccos(|<qest,qgt>|)                    (5)
平移量的评分指标ET为估计值与真值误差的L2范数归一化值,
Figure BDA0003999726040000061
使用ER和ET作为旋转量和平移量评分指标。
进行消融实验,按照3≤N≤9、3≤M≤9的完成实验,通过对比实验结果选取最优transformer组件数量。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (2)

1.一种双通道transformer卫星六自由度姿态估计算法,其特征在于,包括:卫星图像数据预处理模块,通过EfficientNet主干网络提取图像特征,并随机选取主干网络层中的特征分别输入至双通道transformer位姿推理网络,经过位姿优化联合损失函数计算模型输出与标签损失距离,并反向传播给模型进行迭代训练,该算法的步骤包括如下;
(1)卫星图像数据预处理:
卫星图像需要进行相关预处理,使得卫星图像能够按照指定尺寸输入至EfficientNet主干网络中,同时可根据数据集特点进行相关数据增强,如随机亮度、对比度调整和模糊等处理手段;
(2)EfficientNet主干网络:
输入尺寸为224*224*3的特征图,使用32个3*3*3、步长为2*2的卷积层,经过归一化和Swish激活函数处理后得到112*112*32的特征图,在经过初步处理后,特征进入16个不同的MBConv层,最后输出大小为7*7*1280的特征图;
(3)双通道transformer位姿推理网络:
双通道transformer位姿推理网络包括:平移量transformer和旋转量transformer;其中旋转量transformer主要由多个transformer组件、展平层和含四个神经元的全连接层组成,神经元使用四元数熵激活函数,平移量transformer主要由多个transformer组件、展平层和含三个神经元的全连接层组成;
(4)位姿优化联合损失函数:
该损失函数由平移量损失函数和旋转量损失函数组成,然后由学习参数控制两个损失函数的平衡,其中平移量损失函数为,
Lt=||tgt-test||2                            (1)
Lt为平移量损失距离,旋转量损失函数,
Lq=||qgt-qest||2                            (2)
Lq为旋转量损失距离,位姿优化联合损失函数,
Lloss=Ltexp(-st)+Lqexp(-sq)               (3)
其中,Lq为位姿联合损失距离,tgt和qgt是真实标签,test和qest是模型推理值,st和sq是优化因子,用来调节平移量损失函数和旋转量损失函数比重系数,计算出的损失值反向传播给模型进行迭代训练。
2.根据权利要求1所述的一种双通道transformer卫星六自由度姿态估计算法,其特征在于:
双通道transformer位姿推理网络中的四元数熵激活函数,针对卫星姿态的旋转量四元数[q0,q1,q2,q3]受q0 2+q1 2+q2 2+q3 2=1的约束,设计了一种四元数熵激活函数,其表达式为:
Figure FDA0003999726030000021
该激活函数输出四个值,输出结果符合卫星姿态旋转信息的特点。
CN202211612567.5A 2022-12-06 2022-12-14 一种双通道transformer卫星六自由度姿态估计算法 Active CN116051632B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211554086 2022-12-06
CN2022115540863 2022-12-06

Publications (2)

Publication Number Publication Date
CN116051632A true CN116051632A (zh) 2023-05-02
CN116051632B CN116051632B (zh) 2023-12-05

Family

ID=86130509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211612567.5A Active CN116051632B (zh) 2022-12-06 2022-12-14 一种双通道transformer卫星六自由度姿态估计算法

Country Status (1)

Country Link
CN (1) CN116051632B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583340A (zh) * 2020-04-28 2020-08-25 西安交通大学 基于卷积神经网络降低单目相机位姿估计误差率的方法
US20200293828A1 (en) * 2019-03-15 2020-09-17 Nvidia Corporation Techniques to train a neural network using transformations
CN113160375A (zh) * 2021-05-26 2021-07-23 郑健青 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN113239798A (zh) * 2021-05-12 2021-08-10 成都珊瑚鱼科技有限公司 基于孪生神经网络的三维头部姿态估计方法、存储介质和终端
CN114266824A (zh) * 2021-12-10 2022-04-01 北京理工大学 一种基于深度学习的非合作目标相对位姿测量方法、系统
CN114419158A (zh) * 2022-01-26 2022-04-29 深圳市商汤科技有限公司 六维姿态估计方法、网络训练方法、装置、设备及介质
CN114842078A (zh) * 2022-04-14 2022-08-02 中国人民解放军战略支援部队航天工程大学 一种基于深度学习的双通道卫星姿态估计网络
CN114936267A (zh) * 2022-05-11 2022-08-23 西安交通大学医学院第二附属医院 基于双线性池化的多模态融合在线谣言检测方法及系统
CN114973014A (zh) * 2022-05-27 2022-08-30 中国人民解放军战略支援部队信息工程大学 基于多网络级联的飞机目标细粒度检测方法及系统
CN115187823A (zh) * 2022-08-04 2022-10-14 中国人民解放军国防科技大学 基于注意力机制的特征加强方法、装置及图像处理方法
WO2022241874A1 (zh) * 2021-05-18 2022-11-24 烟台艾睿光电科技有限公司 一种红外热成像单目视觉测距方法及相关组件
CN115424071A (zh) * 2022-09-05 2022-12-02 南昌航空大学 基于四元Sigmoid激活函数的图像分类方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200293828A1 (en) * 2019-03-15 2020-09-17 Nvidia Corporation Techniques to train a neural network using transformations
CN111583340A (zh) * 2020-04-28 2020-08-25 西安交通大学 基于卷积神经网络降低单目相机位姿估计误差率的方法
CN113239798A (zh) * 2021-05-12 2021-08-10 成都珊瑚鱼科技有限公司 基于孪生神经网络的三维头部姿态估计方法、存储介质和终端
WO2022241874A1 (zh) * 2021-05-18 2022-11-24 烟台艾睿光电科技有限公司 一种红外热成像单目视觉测距方法及相关组件
CN113160375A (zh) * 2021-05-26 2021-07-23 郑健青 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN114266824A (zh) * 2021-12-10 2022-04-01 北京理工大学 一种基于深度学习的非合作目标相对位姿测量方法、系统
CN114419158A (zh) * 2022-01-26 2022-04-29 深圳市商汤科技有限公司 六维姿态估计方法、网络训练方法、装置、设备及介质
CN114842078A (zh) * 2022-04-14 2022-08-02 中国人民解放军战略支援部队航天工程大学 一种基于深度学习的双通道卫星姿态估计网络
CN114936267A (zh) * 2022-05-11 2022-08-23 西安交通大学医学院第二附属医院 基于双线性池化的多模态融合在线谣言检测方法及系统
CN114973014A (zh) * 2022-05-27 2022-08-30 中国人民解放军战略支援部队信息工程大学 基于多网络级联的飞机目标细粒度检测方法及系统
CN115187823A (zh) * 2022-08-04 2022-10-14 中国人民解放军国防科技大学 基于注意力机制的特征加强方法、装置及图像处理方法
CN115424071A (zh) * 2022-09-05 2022-12-02 南昌航空大学 基于四元Sigmoid激活函数的图像分类方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YEAN ZHU等: "Dual-channel cascade pose estimation network trained on infrared thermal image and groundtruth annotation for real-time gait measurement", 《MEDICAL IMAGE ANALYSIS》, vol. 79, pages 1 - 15 *
张国生等: "基于姿态表示的航空影像旋转目标检测网络", 《广东工业大学学报》, vol. 38, no. 5, pages 40 - 47 *
艾尚宥: "三维物体点云位姿估计的多尺度深度学习方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 6, pages 138 - 774 *
艾莉莉: "基于线阵CCD的空间目标外姿态测量关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》, no. 11, pages 140 - 54 *
陈北京等: "基于四元数的强泛化性GAN生成人脸检测算法", 《计算机辅助设计与图形学学报》, vol. 34, no. 5, pages 734 - 742 *

Also Published As

Publication number Publication date
CN116051632B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
Han et al. A survey on vision transformer
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
CN110555458B (zh) 基于注意力机制生成对抗网络的多波段图像特征级融合方法
Turhan et al. Recent trends in deep generative models: a review
CN110069656B (zh) 一种基于生成对抗网络的二维图片检索三维模型的方法
CN112163498B (zh) 前景引导和纹理聚焦的行人重识别模型建立方法及其应用
CN110020681A (zh) 基于空间注意力机制的点云特征提取方法
Zhao et al. Depth-distilled multi-focus image fusion
CN116129289A (zh) 一种注意力边缘交互的光学遥感图像显著性目标检测方法
CN112905828A (zh) 一种结合显著特征的图像检索器、数据库及检索方法
Chen et al. An object detection network based on YOLOv4 and improved spatial attention mechanism
Feng et al. Hyperspectral and LiDAR data classification based on linear self-attention
CN113988164A (zh) 一种面向代表点自注意力机制的轻量级点云目标检测方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN117150069A (zh) 基于全局与局部语义对比学习的跨模态检索方法及系统
CN116051632B (zh) 一种双通道transformer卫星六自由度姿态估计算法
Peng et al. Attention-guided fusion network of point cloud and multiple views for 3D shape recognition
CN113780241B (zh) 一种显著物体检测的加速方法与装置
CN115984400A (zh) 基于手绘草图的图像自动生成方法及系统
Kasi et al. A deep learning based cross model text to image generation using DC-GAN
Yin et al. M2F2-RCNN: Multi-functional faster RCNN based on multi-scale feature fusion for region search in remote sensing images
Goswami et al. A comprehensive review on real time object detection using deep learing model
CN113763282B (zh) 一种车牌图像的模糊图像生成方法
CN114882281B (zh) 煤矸的轻量级智能分选模型、方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant