CN111814823B - 一种基于场景模板生成的迁移学习方法 - Google Patents

一种基于场景模板生成的迁移学习方法 Download PDF

Info

Publication number
CN111814823B
CN111814823B CN202010457152.XA CN202010457152A CN111814823B CN 111814823 B CN111814823 B CN 111814823B CN 202010457152 A CN202010457152 A CN 202010457152A CN 111814823 B CN111814823 B CN 111814823B
Authority
CN
China
Prior art keywords
network
scene
template
task
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010457152.XA
Other languages
English (en)
Other versions
CN111814823A (zh
Inventor
王勇
解永春
陈奥
李林峰
胡勇
唐宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Control Engineering
Original Assignee
Beijing Institute of Control Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Control Engineering filed Critical Beijing Institute of Control Engineering
Priority to CN202010457152.XA priority Critical patent/CN111814823B/zh
Publication of CN111814823A publication Critical patent/CN111814823A/zh
Application granted granted Critical
Publication of CN111814823B publication Critical patent/CN111814823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于场景模板生成的迁移学习方法,包括设计场景模板、构建场景模板、训练模板生成网络及基于场景模板迁移策略网络。通过场景模板的概念建立了不同场景的统一模板,构建了不同场景之间的共同特征,通过共同特征建立了不同场景之间的联系,从而实现通过强化学习得到的策略网络在差异较大的环境之间的迁移。

Description

一种基于场景模板生成的迁移学习方法
技术领域
本发明涉及一种基于场景模板生成的迁移学习方法,属于智能机器人领域,用于实现机器人在数学仿真环境训练的策略网络无缝迁移到真实物理环境中,以及在不同物理环境之间迁移,实现在一种环境下学会的技能能够在另一个环境下应用。
背景技术
基于深度强化学习方法研究“自学习”空间操作机器人,是指赋予机器人自学习能力,通过“模仿”和自主训练的方式训练机器人掌握各种操作技能,从而解决困扰当前空间操作的非结构化环境、遥操作大时延等难题,是目前机器人领域的重要研究方向。
机器人自我训练需要机器人通过反复试错学习操作技能,空间环境的特殊性使得难以在地面构建相似的物理环境。因此,绝大多数的训练过程需要在计算机仿真中完成。然而,由于数学仿真环境和真实空间环境的差异,如何确保在仿真环境下得到的训练模型能够有效地适应实际的物理对象(称为迁移学习)是人工智能走向实际应用的关键技术瓶颈。
目前为止,机器人操作迁移学习主要有以下几种方法:
表1.机器人自学习操作迁移学习技术
上述两种方法在迁移过程中存在较大的局限性。
发明内容
本发明的技术解决问题:克服现有技术的不足,基于深度神经网络提出了以场景模板为核心的包括网络结构和学习训练的一套迁移学习方法,构建了数学仿真环境与物理环境以及不同的物理环境之间的桥梁,保证在数学仿真环境训练的策略网络能够无缝迁移到真实物理环境中。
本发明的技术解决方案:一种基于场景模板生成的迁移学习方法,包括如下步骤:
1)设计场景模板;
2)构建场景模板;
3)训练模板生成网络;
4)基于场景模板迁移策略网络。
所述场景模板由任务环境内完成任务所必须的主要物体组成,包括操作目标,障碍物,操作工具,机器人;具体形式为主要物体的2维,或3维图像,或其轮廓图,或特征,须体现主要物体之间相对位姿关系。
所述构建场景模板具体为:利用模板生成网络建立数学仿真环境或物理环境与场景模板的映射关系,根据任务环境的具体操作场景生成场景模板在每个时刻的图像;所述模板生成网络由一种广义的编解码网络组成,包括编码器和解码器;其中,编码器以任务环境为输入,以抽象特征为输出;解码器以抽象特征为输入,以场景模板为输出。
所述广义的编解码网络包括编解码网络、生成对抗网络、Mask RCNN为代表的2维图像语义分割和目标检测识别网络、PointNet为代表的3维点云语义分割网络和目标检测识别网络;其中,广义的编解码网络的编码器为上述网络的特征提取部分,解码器为上述网络的图像生成部分,或轮廓图生成部分;模板生成网络的loss函数为具体的编解码网络,生成对抗网络,2维或3维图像语义分割和目标检测识别网络的loss函数。
所述训练模板生成网络具体包括构建训练用网络结构和训练步骤。
所述构建的训练用网络结构由模板生成网络1和模板生成网络2组成,每个模板生成网络构建不同操作任务环境与场景模板的联系;其中,模板生成网络1由编码器1和解码器1组成,以任务场景1为输入,通过编码器1生成特征1;模板生成网络2由编码器2和解码器2组成,以任务场景2为输入,通过编码器2生成特征2;特征1与特征2分别由解码器1和解码器2生成共同的场景模板;其中,任务场景1代表数学仿真环境,任务场景2代表物理环境;训练用网络loss函数由三部分组成,即:
L=Lv1+Lv2+Lcomm
其中,Lv1、Lv2分别为模板生成网络1和模板生成网络2自身的loss函数;
其中,zi,j分别为特征1与特征2,E表示取均值,i、j分别表示第i行第j列。
所述训练步骤包括采集任务场景图像样本、标注任务场景图像样本和训练网络;其中,所述采集任务场景图像样本是指令任务场景1和任务场景2的相机具备相同的参数,保持同一位置和姿态拍摄同一视角下的样本图像,构成一对样本;分别在各种可能操作视角下拍摄若干样本对构成样本库;所述标注任务场景图像样本是按照场景模板的形式把样本对中包含的主要物体标注出完整轮廓,并注明类别;所述训练网络是指以训练用网络结构为主要形式,输入同一对样本和其对应的标注图,用训练用网络loss函数训练模板生成网络1和模板生成网络2。
所述步骤4)基于场景模板迁移策略网络具体包括策略网络训练和策略网络的迁移;其中,策略网络训练是指在任务场景1下利用强化学习进行;其中,策略网络的输入是指任务场景1中的相机采集的图像,通过训练好的模板生成网络1的编码器1生成特征1,或者把任务场景1中的相机采集的图像,通过训练好的模板生成网络1生成对应的场景模板。策略网络的迁移是指把任务环境2中的相机采集的图像,通过训练好的模板生成网络2的编码器2生成特征2作为策略网络的输入,或者把任务场景2中的相机采集的图像,通过训练好的模板生成网络2生成对应的场景模板作为策略网络的输入进行控制。
本发明相比于域随机法和基于生成对抗网络场景迁移方法的优点在于:
(1)提出一种场景模板的概念,即利用权利要求书中的步骤2为不同的任务环境提供一个抽象的统一表征方法,可以依据先验知识根据任务要求灵活设计抽象模板,摒弃不同任务场景中无关信息的干扰。
(2)提出了一种场景模板的构建和训练方法,即利用权利要求书中步骤1的构建场景模板和训练模板生成网络提取不同任务环境的本质特征,建立不同任务场景的本质联系,并以此本质特征为输入训练策略网络,实现同一操作任务在不同环境下的迁移。
(3)操作简单、物理意义明确。
附图说明
图1为模板生成网络;
图2为模板生成网络联合训练;
图3为基于公共特征训练策略网络;
图4为基于公共特征迁移策略网络。
具体实施方式
本发明提供一种基于场景模板生成的迁移学习方法,构建数学仿真环境与物理环境以及不同的物理环境之间的桥梁,保证在数学仿真环境训练的策略网络能够无缝迁移到真实物理环境中,以及在不同物理环境之间迁移,实现在一种环境下学会的技能能够在另一个环境下应用。主要包括如下步骤:
(1)设计场景模板
根据任务需求和任务场景设计场景模板的构成,比如,在轨加注操作物理场景包括空间机器人、加注系统主动端、受体卫星、加注系统被动端及其他。可以抽取空间机器人、加注系统主动端、受体卫星、加注系统被动端组成场景模板,然后经过网络特征提取后形成抽象特征作为迁移学习的基础。
(2)构建场景模板
以编解码网络、生成对抗网络或Mask R-CNN和PointNet为代表的语义分割网络等作为模板生成网络,建立数学仿真环境或各种物理环境与场景模板的映射关系,如图1所示。
(3)训练模板生成网络
训练用网络结构由模板生成网络1和模板生成网络2组成,每个模板生成网络构建不同操作任务环境与场景模板的联系,如图2所示。其中,模板生成网络1由编码器1和解码器1组成,以任务场景1为输入,通过编码器1生成特征1;模板生成网络2由编码器2和解码器2组成,以任务场景2为输入,通过编码器2生成特征2。特征1与特征2分别由解码器1和解码器2生成共同的场景模板。其中,任务场景1可以代表数学仿真环境,任务场景2可以代表物理环境。训练用网络loss函数由三部分组成:
L=Lv1+Lv2+Lcomm
其中,Lv1、Lv2分别为模板生成网络1和模板生成网络2自身的loss函数。
其中,zi,j分别为特征1与特征2。E表示取均值,i、j分别表示第i行第j列。
具体训练主要包括如下几步:
1)采集任务场景图像样本
使任务场景1与任务场景2的相机具备相同的参数,保持同一位置和姿态拍摄同一视角下的样本图像,构成一对样本。分别在各种可能操作视角下拍摄若干样本对构成样本库。
2)标注任务场景图像样本
依据设计的场景模板,分别对任务场景1与任务场景2的每一组样本按照场景模板的形式把样本对中包含的主要物体标注出完整轮廓,并注明类别。
3)训练网络
以训练用网络结构为主要形式,输入同一对样本和其对应的标注图,用训练用网络loss函数训练模板生成网络1和模板生成网络2,并使得由2个编码器得到的特征1和特征2尽量相同,从而实现提取不同任务环境的本质特征的目的。
(4)基于场景模板迁移策略网络
深度强化学习可以在一个数学仿真环境下(如任务场景1)训练,然后在实际物理环境(如任务场景2)下使用。因此,首先在任务场景1下,由训练好的编码器1提取特征作为策略网络的输入,从而利用强化学习训练策略网络,如图3所示。策略网络训练好后,利用训练好的编码器2把任务环境2的场景图像转换为特征作为策略网络的输入实现相同策略网络在任务场景2下的无缝迁移,如图4所示。
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims (3)

1.一种基于场景模板生成的迁移学习方法,其特征在于包括如下步骤:
1)设计场景模板;
2)构建场景模板;
3)训练模板生成网络;
4)基于场景模板迁移策略网络;
所述训练模板生成网络具体包括构建训练用网络结构和训练步骤;
所述构建的训练用网络结构由模板生成网络1和模板生成网络2组成,每个模板生成网络构建不同操作任务环境与场景模板的联系;其中,模板生成网络1由编码器1和解码器1组成,以任务场景1为输入,通过编码器1生成特征1;模板生成网络2由编码器2和解码器2组成,以任务场景2为输入,通过编码器2生成特征2;特征1与特征2分别由解码器1和解码器2生成共同的场景模板;其中,任务场景1代表数学仿真环境,任务场景2代表物理环境;训练用网络loss函数由三部分组成,即:
L=Lv1+Lv2+Lcomm
其中,Lv1、Lv2分别为模板生成网络1和模板生成网络2自身的loss函数;
其中,zi,j分别为特征1与特征2,E表示取均值,i、j分别表示第i行第j列;
所述训练步骤包括采集任务场景图像样本、标注任务场景图像样本和训练网络;其中,所述采集任务场景图像样本是指令任务场景1和任务场景2的相机具备相同的参数,保持同一位置和姿态拍摄同一视角下的样本图像,构成一对样本;分别在各种可能操作视角下拍摄若干样本对构成样本库;所述标注任务场景图像样本是按照场景模板的形式把样本对中包含的物体标注出完整轮廓,并注明类别;所述训练网络是指以训练用网络结构为形式,输入同一对样本和其对应的标注图,用训练用网络loss函数训练模板生成网络1和模板生成网络2;
所述场景模板由任务环境内完成任务所必须的物体组成,包括操作目标,障碍物,操作工具,机器人;具体形式为物体的2维,或3维图像,或其轮廓图,或特征,须体现物体之间相对位姿关系;
所述构建场景模板具体为:利用模板生成网络建立数学仿真环境或物理环境与场景模板的映射关系,根据任务环境的具体操作场景生成场景模板在每个时刻的图像;所述模板生成网络由一种广义的编解码网络组成,包括编码器和解码器;其中,编码器以任务环境为输入,以抽象特征为输出;解码器以抽象特征为输入,以场景模板为输出。
2.根据权利要求1所述的一种基于场景模板生成的迁移学习方法,其特征在于:所述广义的编解码网络包括编解码网络、生成对抗网络、Mask RCNN为代表的2维图像语义分割和目标检测识别网络、PointNet为代表的3维点云语义分割网络和目标检测识别网络;其中,广义的编解码网络的编码器为上述网络的特征提取部分,解码器为上述网络的图像生成部分,或轮廓图生成部分;模板生成网络的loss函数为具体的编解码网络,生成对抗网络,2维或3维图像语义分割和目标检测识别网络的loss函数。
3.根据权利要求2所述的一种基于场景模板生成的迁移学习方法,其特征在于:所述步骤4)基于场景模板迁移策略网络具体包括策略网络训练和策略网络的迁移;其中,策略网络训练是指在任务场景1下利用强化学习进行;其中,策略网络的输入是指任务场景1中的相机采集的图像,通过训练好的模板生成网络1的编码器1生成特征1,或者把任务场景1中的相机采集的图像,通过训练好的模板生成网络1生成对应的场景模板;策略网络的迁移是指把任务环境2中的相机采集的图像,通过训练好的模板生成网络2的编码器2生成特征2作为策略网络的输入,或者把任务场景2中的相机采集的图像,通过训练好的模板生成网络2生成对应的场景模板作为策略网络的输入进行控制。
CN202010457152.XA 2020-05-26 2020-05-26 一种基于场景模板生成的迁移学习方法 Active CN111814823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457152.XA CN111814823B (zh) 2020-05-26 2020-05-26 一种基于场景模板生成的迁移学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457152.XA CN111814823B (zh) 2020-05-26 2020-05-26 一种基于场景模板生成的迁移学习方法

Publications (2)

Publication Number Publication Date
CN111814823A CN111814823A (zh) 2020-10-23
CN111814823B true CN111814823B (zh) 2023-08-15

Family

ID=72848578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457152.XA Active CN111814823B (zh) 2020-05-26 2020-05-26 一种基于场景模板生成的迁移学习方法

Country Status (1)

Country Link
CN (1) CN111814823B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396653B (zh) * 2020-10-31 2022-10-18 清华大学 一种目标场景导向的机器人操作策略生成方法
CN113552871B (zh) * 2021-01-08 2022-11-29 腾讯科技(深圳)有限公司 基于人工智能的机器人控制方法、装置及电子设备
CN116204786B (zh) * 2023-01-18 2023-09-15 北京控制工程研究所 生成指定故障趋势数据的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN110458844A (zh) * 2019-07-22 2019-11-15 大连理工大学 一种低光照场景的语义分割方法
CN110647921A (zh) * 2019-09-02 2020-01-03 腾讯科技(深圳)有限公司 一种用户行为预测方法、装置、设备及存储介质
CN111126386A (zh) * 2019-12-20 2020-05-08 复旦大学 场景文本识别中基于对抗学习的序列领域适应方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN110458844A (zh) * 2019-07-22 2019-11-15 大连理工大学 一种低光照场景的语义分割方法
CN110647921A (zh) * 2019-09-02 2020-01-03 腾讯科技(深圳)有限公司 一种用户行为预测方法、装置、设备及存储介质
CN111126386A (zh) * 2019-12-20 2020-05-08 复旦大学 场景文本识别中基于对抗学习的序列领域适应方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
低光照场景下的语义分割方法研究;王昊然;《中国优秀硕士学位论文全文数据库信息科技辑》;I138-1860 *

Also Published As

Publication number Publication date
CN111814823A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111814823B (zh) 一种基于场景模板生成的迁移学习方法
Tai et al. Towards cognitive exploration through deep reinforcement learning for mobile robots
CN109760045B (zh) 一种离线编程轨迹生成方法及基于该方法的双机器人协同装配系统
CN111695457B (zh) 一种基于弱监督机制的人体姿态估计方法
CN106023211A (zh) 基于深度学习的机器人图像定位方法及系统
CN113538218B (zh) 基于位姿自监督对抗生成网络的弱配对图像风格迁移方法
CN111152227A (zh) 一种基于引导式dqn控制的机械臂控制方法
CN114131603B (zh) 基于感知增强和场景迁移的深度强化学习机器人抓取方法
Li A hierarchical autonomous driving framework combining reinforcement learning and imitation learning
Khargonkar et al. Neuralgrasps: Learning implicit representations for grasps of multiple robotic hands
Chang et al. A robot obstacle avoidance method using merged cnn framework
Bogunowicz et al. Sim2real for peg-hole insertion with eye-in-hand camera
US11383386B2 (en) Robotic drawing
US11906977B2 (en) Path planning method
CN116852347A (zh) 一种面向非合作目标自主抓取的状态估计与决策控制方法
Khan et al. Towards generalizing sensorimotor control across weather conditions
Yu et al. A hyper-network based end-to-end visual servoing with arbitrary desired poses
CN113011081B (zh) 一种基于元学习的无人机导航方法
Rahul et al. Simulation of Self‐Driving Cars Using Deep Learning
Yang et al. Domain centralization and cross-modal reinforcement learning for vision-based robotic manipulation
Sun et al. Online map fusion system based on sparse point-cloud
Ito et al. Visualization of focal cues for visuomotor coordination by gradient-based methods: A recurrent neural network shifts the attention depending on task requirements
Sharma et al. Pre-Trained Masked Image Model for Mobile Robot Navigation
Zhang et al. DSNet: Double Strand Robotic Grasp Detection Network Based on Cross Attention
Anagnostopoulos et al. Federated Deep Feature Extraction-based SLAM for Autonomous Vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant