CN107479368A - 一种基于人工智能的训练无人机控制模型的方法及系统 - Google Patents

一种基于人工智能的训练无人机控制模型的方法及系统 Download PDF

Info

Publication number
CN107479368A
CN107479368A CN201710521592.5A CN201710521592A CN107479368A CN 107479368 A CN107479368 A CN 107479368A CN 201710521592 A CN201710521592 A CN 201710521592A CN 107479368 A CN107479368 A CN 107479368A
Authority
CN
China
Prior art keywords
status information
neural network
unmanned plane
training
control information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710521592.5A
Other languages
English (en)
Other versions
CN107479368B (zh
Inventor
周波
王凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710521592.5A priority Critical patent/CN107479368B/zh
Publication of CN107479368A publication Critical patent/CN107479368A/zh
Priority to US16/020,340 priority patent/US11150655B2/en
Application granted granted Critical
Publication of CN107479368B publication Critical patent/CN107479368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64CAEROPLANES; HELICOPTERS
    • B64C39/00Aircraft not otherwise provided for
    • B64C39/02Aircraft not otherwise provided for characterised by special use
    • B64C39/024Aircraft not otherwise provided for characterised by special use of the remote controlled vehicle type, i.e. RPV
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U10/00Type of UAV
    • B64U10/10Rotorcrafts
    • B64U10/13Flying platforms
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64UUNMANNED AERIAL VEHICLES [UAV]; EQUIPMENT THEREFOR
    • B64U2201/00UAVs characterised by their flight controls
    • B64U2201/10UAVs characterised by their flight controls autonomous, i.e. by navigating independently from ground or air stations, e.g. by using inertial navigation systems [INS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请提供一种基于人工智能的训练无人机控制模型的方法及系统,其特征在于,包括:利用无人机的传感器数据、目标状态信息以及所述无人机在深度神经网络输出的控制信息作用下的状态信息,得到训练数据;利用所述训练数据,训练所述深度神经网络,得到无人机控制模型,所述无人机控制模型用于根据无人机的传感器数据和目标状态信息得到对无人机的控制信息。能够避免现有技术中PID控制算法的难点在于参数的整定,并且相对于高级控制算法精度低,对于某些非线性的复杂环境惯性强对象效果不好的问题。参数学习自动化,鲁棒性强;能够响应非线性的复杂环境;在惯性强的情况下依然使用;并且可大大减少训练样本量,减少采集样本的时间,降低成本。

Description

一种基于人工智能的训练无人机控制模型的方法及系统
【技术领域】
本申请涉及人工智能领域,尤其涉及一种基于人工智能的训练无人机控制模型的方法及系统。
【背景技术】
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
无人机,是指可以通过无线遥控或程序控制来操纵的不载人飞机,具有灵活、低成本、易携带和多次使用的特点,通过给无人机装载自动飞行控制系统,并集成各类机载传感器、图像采集设备以及无线通信设备等,可以使其完成载人飞机难以完成的危险任务,因此无人机在军事和民用方面有着广泛的应用和广阔的发展前景。无人机的技术日益成熟,在一定程度上反映了一个国家的航空技术和人工智能技术的发展程度。
现有技术中,无人机主要依赖PID控制算法进行飞行控制。通过机载传感器,如陀螺仪(飞行姿态感知)、加速计、地磁感应、气压传感器(悬停控制)、GPS模块(定位)等传感器获取无人机状态信息;接收遥控器传来的目标状态信息,通过PID控制算法输出控制信息,控制无人机执行。
上述PID控制算法是将目标状态信息与执行控制信息后的状态信息进行比较,得到误差信号,将误差信号的比例P,积分I,微分D通过线性组合构成控制量。很多情况下,往往不一定需要三个单元,但是比例单元是必不可少的。
1.比例环节(P):直接将误差信号放大或缩小,因此将比例环节参数增大可以提高响应速度并且减小稳态误差,但是,快速性和稳定性总是矛盾的,增大比例系数的同时,系统的稳定性会逐渐降低,系统有可能会出现超调,震荡,甚至发散。
2.积分环节(I):从积分的定义可知,该环节是将误差不断进行累积,可实现消除稳态误差。增益越大,积分作用越强,稳态误差消除也越快,但是带来的问题是容易产生积分饱和现象,带来打的超调并延缓系统进入稳态的速度。
3.微分环节(D):这是一个超前环节,提前预知控制量是该减还是该增,避免造成超调,震荡,因此增大该环节增益有助于提高系统的稳定性,避免震荡,但是对快速性产生了副作用;而且微分环节对噪声信号将产生放大作用。
可见,PID控制算法的难点在于参数的整定,并且相对于高级控制算法来说,精度低,对于某些非线性的复杂环境,惯性强对象效果不好。随着无人机可应用的场景越来越多,飞行环境也越来越复杂,对无人机飞行控制系统也提出了越来越高的要求。
【发明内容】
本申请的多个方面提供一种基于人工智能的训练无人机控制模型的方法及系统,用以提高无人机飞行控制系统的精度以及非线性复杂环境中惯性强对象的控制效果。
本申请的一方面,提供一种基于人工智能的训练无人机控制模型的方法,其特征在于,包括:
利用无人机的传感器数据、目标状态信息以及所述无人机在深度神经网络输出的控制信息作用下的状态信息,得到训练数据;
利用所述训练数据,训练所述深度神经网络,得到无人机控制模型,所述无人机控制模型用于根据无人机的传感器数据和目标状态信息得到对无人机的控制信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用无人机的传感器数据、目标状态信息以及所述无人机在无人机控制模型输出的控制信息作用下的状态信息,得到训练数据包括:
在预先构建的模拟环境中,将传感器数据和目标状态信息作为所述深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为训练样本。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述训练所述深度神经网络包括:
按照最小化损失原则对所述深度神经网络进行训练,以最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述目标状态信息包括连续随机的目标状态信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述深度神经网络包括基于深度确定性策略梯度的深度强化学习神经网络。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述无人机控制模型包括深度神经网络以及Q值预估网络;
所述策略网络负责根据传感器数据以及目标状态信息输出相应的控制信息;
所述Q值预估网络负责根据传感器数据、目标状态信息以及策略网络输出的控制信息对所述控制信息进行评价。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,利用所述训练数据,训练所述深度神经网络,得到无人机控制模型包括:
利用在模拟环境中得到的训练样本,训练所述深度神经网络模型,直至达到最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距条件之后;利用实际环境中得到的训练样本,训练所述在模拟环境中训练后的深度神经网络模型。
本申请的一方面,提供一种控制无人机的方法,其特征在于,该方法包括:
获取被控无人机的传感器数据;
将所述传感器数据和目标状态信息输入无人机控制模型,得到所述无人机控制模型输出的控制信息;
将所述控制信息输出至所述被控无人机;
其中所述无人机控制模型是利用上述方法预先建立的。
本申请的另一方面,提供一种基于人工智能的训练无人机控制模型的系统,其特征在于,包括训练数据获取单元和神经网络训练单元;其中,
所述训练数据获取单元,用于利用无人机的传感器数据、目标状态信息以及所述无人机在深度神经网络输出的控制信息作用下的状态信息,得到训练数据;
所述神经网络训练单元,用于利用所述训练数据,训练所述深度神经网络,得到无人机控制模型,所述无人机控制模型用于根据无人机的传感器数据和目标状态信息得到对无人机的控制信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述所述训练数据获取单元进一步用于,在预先构建的模拟环境中,将传感器数据和目标状态信息作为所述深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为训练样本。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述神经网络训练单元进一步用于,按照最小化损失原则对所述深度神经网络进行训练,以最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述目标状态信息包括连续随机的目标状态信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述深度神经网络包括基于深度确定性策略梯度的深度强化学习神经网络。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述无人机控制模型包括深度神经网络以及Q值预估网络;
所述策略网络负责根据传感器数据以及目标状态信息输出相应的控制信息;
所述Q值预估网络负责根据传感器数据、目标状态信息以及策略网络输出的控制信息对所述控制信息进行评价。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述神经网络训练单元进一步用于,利用在模拟环境中得到的训练样本,训练所述深度神经网络模型,直至达到最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距条件之后;利用实际环境中得到的训练样本,训练所述在模拟环境中训练后的深度神经网络模型。
本申请的另一方面,提供一种控制无人机的系统,其特征在于,所述系统包括包括:
导航/惯性测量单元,用于获取被控无人机的传感器数据;
控制信息获取单元,用于将所述传感器数据和目标状态信息输入无人机控制模型,得到所述无人机控制模型输出的控制信息;
控制信息输出单元,用于将所述控制信息输出至所述被控无人机;
其中所述无人机控制模型是利用上述系统预先建立的。
本申请的另一方面,提供一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任一上述的方法。
本申请的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现任一上述的方法。
由所述技术方案可知,本申请实施例通过。采用本实施例提供的技术方案,能够避免现有技术中PID控制算法的难点在于参数的整定,并且相对于高级控制算法来说,精度低,对于某些非线性的复杂环境,惯性强对象效果不好的问题;参数学习自动化,鲁棒性强;能够响应非线性的复杂环境;在惯性强的情况下依然使用;并且可大大减少训练样本量,减少采集样本的时间,降低成本。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的基于人工智能的无人机飞行控制方法的流程示意图;
图2为本申请另一实施例提供的基于人工智能的无人机飞行控制系统的结构示意图;
图3为适于用来实现本发明实施例的示例性计算机系统/服务器的框图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
四轴无人机包括机体和固定在机体上的飞行器控制模块,还包括固定在机体四个悬臂上的电机驱动模块及由电机驱动的旋翼,另外,四轴无人机还包括安装在所述机体上并分别与所述飞行器控制模块连接的导航/惯性测量单元、电源模块,还包括与飞行器控制模块通信连接的通信模块以及为飞行器控制模块供电的电源模块;导航/惯性测量单元对四轴无人机行跟踪定位,并向所述飞行器控制模块提供位置信息并导航,包括分别与所述飞行器控制模块连接的三轴加速度计、陀螺、磁力计、气压计和GPS,所述三轴加速度计用于测量重力加速度在无人机机体坐标轴上的分解加速度;所述陀螺仪用于测量无人计三维角速度所述磁力计用于测量磁场在无人机集体坐标轴上的分磁场强度;所述气压计用于测量无人机机体高度,坐标轴的Z坐标;所述GPS用于测量无人机机体位置,坐标轴的X、Y坐标,高度信息一般用气压计代替。
导航/惯性测量单元获取由四轴无人机当前的位置信息以及三轴线加速度、翻滚角速率、俯仰角速率和偏航角速率等组成的传感器数据,所述四轴无人机的控制模块通过基于人工智能的训练无人机控制模型的方法得到无人机控制模型,综合计算传感器数据和目标状态信息后输出控制信息至电调,然后电调根据获得的控制信息控制4个电机的转速,从而实现对4个旋翼产生的升力和转矩的控制,电机可以通过PWM控制其转速从而达到对每个旋翼所产生的力和力矩的大小进行控制。
图1为本申请一实施例提供的基于人工智能的训练无人机控制模型的方法的流程示意图,如图1所示,包括以下步骤:
101、利用无人机的传感器数据、目标状态信息以及所述无人机在深度神经网络输出的控制信息作用下的状态信息,得到训练数据;
具体地,在预先构建的模拟环境中,将无人机的传感器数据和目标状态信息作为所述深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为训练样本。
优选的,所述传感器数据包括三轴加速度计、陀螺、磁力计、气压计和GPS等传感器数据中的一种或多种。
优选的,向无人机发送不同的目标状态信息;以使神经网络能够学习到各种目标状态信息。
所述模拟环境,具体地,是利用仿真平台,例如微软Aerial Informatics andRobotics Platform(空中信息技术和机器人平台,简称AirSim),或ROS机器人操作系统的Gazebo仿真平台,构建而成;在上述模拟环境中加载无人机仿真模型,所述无人机仿真模型,可以使用统一机器人描述格式(URDF)语言描述。
从本质上,所述模拟环境可以视为一个数据生成器,便可以根据无人机上的三轴加速度计、陀螺、磁力计、气压计和GPS等传感器的感测模式生成并记录大量的数据,并且利用这些数据在模拟环境中进行重复测试。因此,可以增加测试量和测试速度,以很小的代价获取海量的数据,进而进行人工智能的训练,提高人工智能的训练效率。另外,模拟测试成本较低,可以避免在实际环境中测试时遭遇的碰撞损失。
102、利用所述训练数据,训练所述深度神经网络,得到无人机控制模型,所述无人机控制模型用于根据无人机的传感器数据和目标状态信息得到对无人机的控制信息。
具体地,按照最小化损失原则对所述深度神经网络进行训练,以最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距。
在一个优选实施例中,步骤101中,所述目标状态信息为连续随机的目标状态信息;即,所述步骤101包括:
利用无人机的传感器数据、连续随机的目标状态信息以及所述无人机在深度神经网络输出的控制信息作用下的状态信息,得到训练数据;
具体地,在预先构建的模拟环境中,将无人机的传感器数据和连续随机的目标状态信息作为所述深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为一组训练样本。
所述神经网络为基于DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)的深度强化学习神经网络,具体包括策略网络以及Q值预估网络,其中,
策略网络μ(s|θμ)负责根据无人机的传感器数据、连续随机的目标状态信息输出相应的控制信息,其神经网络参数为θμ
Q值预估网络Q(s,a|θQ)负责根据无人机的传感器数据、连续随机的目标状态信息以及策略网络输出的控制信息对所述控制信息进行评价,预估所述控制信息是否能够获得长远收益,其神经网络参数为θQ
根据Q值预估网络的输出来更新策略网络和Q值预估网络。
优选的,创建一个包括策略网络和Q值预估网络的副本的目标网络,用于计算目标值。
优选的,所述策略网络包括:输入层;至少循环重复一次的全连接层、非线性激活层;以及输出层。根据一个实施例,可以选择:输入层→全连接层→非线性激活层→全连接层→非线性激活层→输出层。当然,也可以设计其他网络结构,本发明对此不作限制。
优选的,所述Q值预估网络包括:输入层;至少循环重复两次的全连接层、非线性激活层;拼接层;以及输出层。根据一个实施例,可以选择:输入层→全连接层→非线性激活层→拼接层→全连接层→非线性激活层→全连接层→输出层。当然,也可以设计其他网络结构,本发明对此不作限制。其中,控制信息、目标状态信息输入直到网络的第二个全连接层才被使用;传感器信号经过全连接层、非线性激活层的处理,然后与控制信息、目标状态信息输入拼接层,并进行后续处理。
优选的,所述步骤102包括:
步骤201、选取训练样本输入所述神经网络;
具体地,从样本集合中选取已建立对应关系的传感器数据、目标状态信息、控制信息组成的一组训练样本输入所述神经网络,即输入的一端为传感器数据、目标状态信息,输入的另一端为控制信息;
步骤202,使用最小化损失函数更新Q值预估网络。
计算t时刻之前的传感器数据以及目标状态信息和控制信息的集合
st=(x1,a1,...,at-1,xt)=xt (1)
式(1)中,xt为t时刻的传感器数据以及目标状态信息;at为t时刻的控制信息;
利用Q值函数来描述长远收益
长远收益Qπ(st,at)=E[Rt|St,at] (2)
式中为时刻t获得的打过折扣以后的长远收益总和,γ∈[0,1]为折扣系数,r(st,at)为时刻t的收益函数,T为动作结束的时刻,π为策略概率;
由于策略概率π是预设确定的,记为目标策略μ:S←A,S为状态空间,A为动作空间,同时利用贝尔曼方程处理式(2)有:
式(3)中,st+1~E表示t+1时刻的传感器数据以及目标状态信息是从环境E中获得的,μ(St+1)表示t+1时刻从传感器数据以及目标状态信息通过目标策略μ所映射到的动作;
利用最大似然估计的原则,通过最小化损失函数来更新网络权重参数为θQ的Q值预估网络Q(s,a|θQ),所采用的损失函数为:
L(θQ)=Eμ'[(Q(St,atQ)-yt)2] (4)
式(4)中,yt=r(st,at)+γQ(St+1,μ(St+1)|θQ);
这样,Q(s,a|θQ)越来越接近实际值,即对场景的建模越来越精准。
步骤203,使用策略梯度更新策略网络。
对于实际的参数为θμ的策略网络,利用链式法则得到策略梯度
再利用策略梯度来更新策略网络的策略函数μ(s|θμ)。
步骤204,使用缓慢更新策略更新目标网络。
在很多环境(包括TORCS)下,直接利用神经网络来实现Q值函数被证明是不稳定的。因此,本实施例中使用目标网络中策略网络和Q值预估网络的副本来计算目标值。目标网络的权重使用缓慢更新策略,即让它们自己慢慢跟踪学习过的网络来更新,所使用的缓慢更新策略为:
θQ’←τθQ+(1-τ)θQ’ (6)
θμ’←τθμ+(1-τ)θμ’ (7)
式(6)和(7)中,τ为更新率,τ<<1,这意味着目标值被限制为慢慢地改变,大大地提高了学习的稳定性。
通过上述步骤,即训练得到了一个基于DDPG的深度强化学习网络,且为收敛的神经网络。
从样本集合中随机选取一组或多组训练样本对神经网络进行训练。通过从之前的样本集合中随机选取训练样本,可以使样本相对稳定。通过对神经网络不断进行训练,可以加快训练速度。
在一个优选实施例中,利用所述训练数据,训练所述深度神经网络,得到无人机控制模型包括:
利用在模拟环境中得到的训练样本,训练所述深度神经网络模型,直至达到最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距条件之后;利用实际环境中得到的训练样本,训练所述在模拟环境中训练后的深度神经网络模型;具体地,包括:
301、在实际环境中控制无人机飞行,获取实际环境中的训练数据;包括:
在实际环境中,将无人机的传感器数据和连续随机的目标状态信息作为在模拟环境中训练后的深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为一组训练样本。
优选的,所述传感器数据包括三轴加速度计、陀螺、磁力计、气压计和GPS等传感器数据中的一种或多种。
优选的,在实际环境中控制无人机飞行,获得少量实际环境中的训练数据。
优选的,在不同场景的实际环境中,給无人机不同目标信号;以产生足量数据,使神经网络能够学习到各种目标信号。
优选的,间隔一段时间給无人机连续随机的控制信息,由训练后的在模拟环境中训练后的深度神经网络根据传感器数据和连续随机的目标状态信息输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为一组训练样本,更新样本数据。
302、根据实际环境中获取的训练样本对在模拟环境中训练后的神经网络进行训练,得到适用于无人机飞行控制的神经网络。
为描述的方便和简洁,所述根据实际环境中获取的训练数据对在模拟环境中训练后的神经网络进行训练,得到适用于无人机飞行控制的神经网络,可以参考前述步骤102中的对应描述,在此不再赘述。
由于实际环境中运行无人机与模拟环境中不完全相同,因此,通过上述步骤,对模拟环境中训练得到的神经网络进行了重新训练,实现微调,得到了适用于无人机飞行控制的无人机控制模型。
本发明还公开了一种控制无人机的方法,其特征在于,该方法包括:
获取被控无人机的传感器数据;
将所述传感器数据和目标状态信息输入无人机控制模型,得到所述无人机控制模型输出的控制信息;
将所述控制信息输出至所述被控无人机;
其中所述无人机控制模型是利用如上述基于人工智能的训练无人机控制模型的方法预先建立的。
本发明所述实施例不仅适用于无人机飞行控制系统,同时也适用于无人车、无人船舶、无人潜航器和其它自主移动设备的控制系统。
采用本实施例提供的技术方案,能够避免现有技术中PID控制算法的难点在于参数的整定,并且相对于高级控制算法来说,精度低,对于某些非线性的复杂环境,惯性强对象效果不好的问题;参数学习自动化,鲁棒性强;能够响应非线性的复杂环境;在惯性强的情况下依然使用;并且可大大减少训练样本量,减少采集样本的时间,降低成本。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在所述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图2为本申请另一实施例提供的基于人工智能的训练无人机控制模型的系统的结构示意图,如2所示,包括训练数据获取单元21和神经网络训练单元22;其中,
所述训练数据获取单元21,用于利用无人机的传感器数据、目标状态信息以及所述无人机在深度神经网络输出的控制信息作用下的状态信息,得到训练数据;
具体地,在预先构建的模拟环境中,将无人机的传感器数据和目标状态信息作为所述深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为训练样本。
优选的,所述传感器数据包括三轴加速度计、陀螺、磁力计、气压计和GPS等传感器数据中的一种或多种。
优选的,向无人机发送不同的目标状态信息;以使神经网络能够学习到各种目标状态信息。
所述模拟环境,具体地,是利用仿真平台,例如微软Aerial Informatics andRobotics Platform(空中信息技术和机器人平台,简称AirSim),或ROS机器人操作系统的Gazebo仿真平台,构建而成;在上述模拟环境中加载无人机仿真模型,所述无人机仿真模型,可以使用统一机器人描述格式(URDF)语言描述。
从本质上,所述模拟环境可以视为一个数据生成器,便可以根据无人机上的三轴加速度计、陀螺、磁力计、气压计和GPS等传感器的感测模式生成并记录大量的数据,并且利用这些数据在模拟环境中进行重复测试。因此,可以增加测试量和测试速度,以很小的代价获取海量的数据,进而进行人工智能的训练,提高人工智能的训练效率。另外,模拟测试成本较低,可以避免在实际环境中测试时遭遇的碰撞损失。
所述神经网络训练单元22,用于利用所述训练数据,训练所述深度神经网络,得到无人机控制模型,所述无人机控制模型用于根据无人机的传感器数据和目标状态信息得到对无人机的控制信息。
具体地,按照最小化损失原则对所述深度神经网络进行训练,以最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距。
在一个优选实施例中,所述目标状态信息为连续随机的目标状态信息;所述训练数据获取单元21,用于利用无人机的传感器数据、连续随机的目标状态信息以及所述无人机在深度神经网络输出的控制信息作用下的状态信息,得到训练数据;
具体地,在预先构建的模拟环境中,将无人机的传感器数据和连续随机的目标状态信息作为所述深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为一组训练样本。
所述神经网络为基于DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)的深度强化学习神经网络,具体包括策略网络以及Q值预估网络,其中,
策略网络μ(s|θμ)负责根据无人机的传感器数据、连续随机的目标状态信息输出相应的控制信息,其神经网络参数为θμ
Q值预估网络Q(s,a|θQ)负责根据无人机的传感器数据、连续随机的目标状态信息以及策略网络输出的控制信息对所述控制信息进行评价,预估所述控制信息是否能够获得长远收益,其神经网络参数为θQ
根据Q值预估网络的输出来更新策略网络和Q值预估网络。
优选的,创建一个包括策略网络和Q值预估网络的副本的目标网络,用于计算目标值。
优选的,所述策略网络包括:输入层;至少循环重复一次的全连接层、非线性激活层;以及输出层。根据一个实施例,可以选择:输入层→全连接层→非线性激活层→全连接层→非线性激活层→输出层。当然,也可以设计其他网络结构,本发明对此不作限制。
优选的,所述Q值预估网络包括:输入层;至少循环重复两次的全连接层、非线性激活层;拼接层;以及输出层。根据一个实施例,可以选择:输入层→全连接层→非线性激活层→拼接层→全连接层→非线性激活层→全连接层→输出层。当然,也可以设计其他网络结构,本发明对此不作限制。其中,控制信息、目标状态信息输入直到网络的第二个全连接层才被使用;传感器信号经过全连接层、非线性激活层的处理,然后与控制信息、目标状态信息输入拼接层,并进行后续处理。
优选的,所述神经网络训练单元22包括:
训练样本输入子单元201,用于选取训练样本输入所述神经网络;
具体地,从样本集合中选取已建立对应关系的传感器数据、目标状态信息、控制信息组成的一组训练样本输入所述神经网络,即输入的一端为传感器数据、目标状态信息,输入的另一端为控制信息;
Q值预估网络更新子单元202,用于使用最小化损失函数更新Q值预估网络。
计算t时刻之前的传感器数据以及目标状态信息和控制信息的集合
st=(x1,a1,...,at-1,xt)=xt (1)
式(1)中,xt为t时刻的传感器数据以及目标状态信息;at为t时刻的控制信息;
利用Q值函数来描述长远收益
长远收益Qπ(st,at)=E[Rt|St,at] (2)
式中为时刻t获得的打过折扣以后的长远收益总和,γ∈[0,1]为折扣系数,r(st,at)为时刻t的收益函数,T为动作结束的时刻,π为策略概率;
由于策略概率π是预设确定的,记为目标策略μ:S←A,S为状态空间,A为动作空间,同时利用贝尔曼方程处理式(2)有:
式(3)中,st+1~E表示t+1时刻的传感器数据以及目标状态信息是从环境E中获得的,μ(St+1)表示t+1时刻从传感器数据以及目标状态信息通过目标策略μ所映射到的动作;
利用最大似然估计的原则,通过最小化损失函数来更新网络权重参数为θQ的Q值预估网络Q(s,a|θQ),所采用的损失函数为:
L(θQ)=Eμ'[(Q(St,atQ)-yt)2] (4)
式(4)中,yt=r(st,at)+γQ(St+1,μ(St+1)|θQ);
这样,Q(s,a|θQ)越来越接近实际值,即对场景的建模越来越精准。
策略网络更新子单元203,用于使用策略梯度更新策略网络。
对于实际的参数为θμ的策略网络,利用链式法则得到策略梯度
再利用策略梯度来更新策略网络的策略函数μ(s|θμ)。
目标网络更新子单元204,用于使用缓慢更新策略更新目标网络。
在很多环境(包括TORCS)下,直接利用神经网络来实现Q值函数被证明是不稳定的。因此,本实施例中使用目标网络中策略网络和Q值预估网络的副本来计算目标值。目标网络的权重使用缓慢更新策略,即让它们自己慢慢跟踪学习过的网络来更新,所使用的缓慢更新策略为:
θQ’←τθQ+(1-τ)θQ’ (6)
θμ’←τθμ+(1-τ)θμ’ (7)
式(6)和(7)中,τ为更新率,τ<<1,这意味着目标值被限制为慢慢地改变,大大地提高了学习的稳定性。
通过上述步骤,即训练得到了一个基于DDPG的深度强化学习网络,且为收敛的神经网络。
从样本集合中随机选取一组或多组训练样本对神经网络进行训练。通过从之前的样本集合中随机选取训练样本,可以使样本相对稳定。通过对神经网络不断进行训练,可以加快训练速度。
在一个优选实施例中,利用所述训练数据,训练所述深度神经网络,得到无人机控制模型包括:
利用在模拟环境中得到的训练样本,训练所述深度神经网络模型,直至达到最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距条件之后;利用实际环境中得到的训练样本,训练所述在模拟环境中训练后的深度神经网络模型;具体地,包括:
训练数据获取单元21,用于在实际环境中控制无人机飞行,获取实际环境中的训练数据;包括:
在实际环境中,将无人机的传感器数据和连续随机的目标状态信息作为在模拟环境中训练后的深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为一组训练样本。
优选的,所述传感器数据包括三轴加速度计、陀螺、磁力计、气压计和GPS等传感器数据中的一种或多种。
优选的,在实际环境中控制无人机飞行,获得少量实际环境中的训练数据。
优选的,在不同场景的实际环境中,給无人机不同目标信号;以产生足量数据,使神经网络能够学习到各种目标信号。
优选的,间隔一段时间給无人机连续随机的控制信息,由训练后的在模拟环境中训练后的深度神经网络根据传感器数据和连续随机的目标状态信息输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为一组训练样本,更新样本数据。
神经网络训练单元22,用于根据实际环境中获取的训练样本对在模拟环境中训练后的神经网络进行训练,得到适用于无人机飞行控制的神经网络。
由于实际环境中运行无人机与模拟环境中不完全相同,因此,通过上述步骤,对模拟环境中训练得到的神经网络进行了重新训练,实现微调,得到了适用于无人机飞行控制系统的神经网络。
本发明所述实施例不仅适用于无人机飞行控制系统,同时也适用于无人车、无人船舶、无人潜航器和其它自主移动设备的控制系统。
本发明还提供了一种控制无人机的系统,其特征在于,所述系统包括包括:
导航/惯性测量单元,用于获取被控无人机的传感器数据;
控制信息获取单元,用于将所述传感器数据和目标状态信息输入无人机控制模型,得到所述无人机控制模型输出的控制信息;
控制信息输出单元,用于将所述控制信息输出至所述被控无人机;
其中所述无人机控制模型是利用所述基于人工智能的训练无人机控制模型的系统预先建立的。
采用本实施例提供的技术方案,能够避免现有技术中PID控制算法的难点在于参数的整定,并且相对于高级控制算法来说,精度低,对于某些非线性的复杂环境,惯性强对象效果不好的问题;参数学习自动化,鲁棒性强;能够响应非线性的复杂环境;在惯性强的情况下依然使用;并且可大大减少训练样本量,减少采集样本的时间,降低成本。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理单元016,系统存储器028,连接不同系统组件(包括系统存储器028和处理单元016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图3中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元016通过运行存储在系统存储器028中的程序,从而执行本发明所描述的实施例中的功能和/或方法。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (18)

1.一种基于人工智能的训练无人机控制模型的方法,其特征在于,包括:
利用无人机的传感器数据、目标状态信息以及所述无人机在深度神经网络输出的控制信息作用下的状态信息,得到训练数据;
利用所述训练数据,训练所述深度神经网络,得到无人机控制模型,所述无人机控制模型用于根据无人机的传感器数据和目标状态信息得到对无人机的控制信息。
2.根据权利要求1所述的方法,其特征在于,所述利用无人机的传感器数据、目标状态信息以及所述无人机在无人机控制模型输出的控制信息作用下的状态信息,得到训练数据包括:
在预先构建的模拟环境中,将传感器数据和目标状态信息作为所述深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为训练样本。
3.根据权利要求1所述的方法,其特征在于,所述训练所述深度神经网络包括:
按照最小化损失原则对所述深度神经网络进行训练,以最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距。
4.根据权利要求1所述的方法,其特征在于,所述目标状态信息包括连续随机的目标状态信息。
5.根据权利要求1所述的方法,其特征在于,所述深度神经网络包括基于深度确定性策略梯度的深度强化学习神经网络。
6.根据权利要求1所述的方法,其特征在于,所述无人机控制模型包括深度神经网络以及Q值预估网络;
所述策略网络负责根据传感器数据以及目标状态信息输出相应的控制信息;
所述Q值预估网络负责根据传感器数据、目标状态信息以及策略网络输出的控制信息对所述控制信息进行评价。
7.根据权利要求2所述的方法,其特征在于,利用所述训练数据,训练所述深度神经网络,得到无人机控制模型包括:
利用在模拟环境中得到的训练样本,训练所述深度神经网络模型,直至达到最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距条件之后;利用实际环境中得到的训练样本,训练所述在模拟环境中训练后的深度神经网络模型。
8.一种控制无人机的方法,其特征在于,该方法包括:
获取被控无人机的传感器数据;
将所述传感器数据和目标状态信息输入无人机控制模型,得到所述无人机控制模型输出的控制信息;
将所述控制信息输出至所述被控无人机;
其中所述无人机控制模型是利用如权利要求1~7任一权项所述方法预先建立的。
9.一种基于人工智能的训练无人机控制模型的系统,其特征在于,包括训练数据获取单元和神经网络训练单元;其中,
所述训练数据获取单元,用于利用无人机的传感器数据、目标状态信息以及所述无人机在深度神经网络输出的控制信息作用下的状态信息,得到训练数据;
所述神经网络训练单元,用于利用所述训练数据,训练所述深度神经网络,得到无人机控制模型,所述无人机控制模型用于根据无人机的传感器数据和目标状态信息得到对无人机的控制信息。
10.根据权利要求9所述的系统,其特征在于,所述训练数据获取单元进一步用于,在预先构建的模拟环境中,将传感器数据和目标状态信息作为所述深度神经网络的输入,由所述深度神经网络输出相应的控制信息;
根据无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息的差距,判断控制信息是否符合达成目标状态信息的预期,给出正/负反馈;
将传感器数据、目标状态信息、控制信息作为训练样本。
11.根据权利要求9所述的系统,其特征在于,所述神经网络训练单元进一步用于,按照最小化损失原则对所述深度神经网络进行训练,以最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距。
12.根据权利要求9所述的系统,其特征在于,所述目标状态信息包括连续随机的目标状态信息。
13.根据权利要求9所述的系统,其特征在于,所述深度神经网络包括基于深度确定性策略梯度的深度强化学习神经网络。
14.根据权利要求9所述的系统,其特征在于,所述无人机控制模型包括深度神经网络以及Q值预估网络;
所述策略网络负责根据传感器数据以及目标状态信息输出相应的控制信息;
所述Q值预估网络负责根据传感器数据、目标状态信息以及策略网络输出的控制信息对所述控制信息进行评价。
15.根据权利要求10所述的系统,其特征在于,所述神经网络训练单元进一步用于,利用在模拟环境中得到的训练样本,训练所述深度神经网络模型,直至达到最小化所述无人机在深度神经网络输出的控制信息作用下的状态信息与目标状态信息之间的差距条件之后;利用实际环境中得到的训练样本,训练所述在模拟环境中训练后的深度神经网络模型。
16.一种控制无人机的系统,其特征在于,所述系统包括:
导航/惯性测量单元,用于获取被控无人机的传感器数据;
控制信息获取单元,用于将所述传感器数据和目标状态信息输入无人机控制模型,得到所述无人机控制模型输出的控制信息;
控制信息输出单元,用于将所述控制信息输出至所述被控无人机;
其中所述无人机控制模型是利用如权利要求9-15任一权项所述系统预先建立的。
17.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201710521592.5A 2017-06-30 2017-06-30 一种基于人工智能的训练无人机控制模型的方法及系统 Active CN107479368B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710521592.5A CN107479368B (zh) 2017-06-30 2017-06-30 一种基于人工智能的训练无人机控制模型的方法及系统
US16/020,340 US11150655B2 (en) 2017-06-30 2018-06-27 Method and system for training unmanned aerial vehicle control model based on artificial intelligence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710521592.5A CN107479368B (zh) 2017-06-30 2017-06-30 一种基于人工智能的训练无人机控制模型的方法及系统

Publications (2)

Publication Number Publication Date
CN107479368A true CN107479368A (zh) 2017-12-15
CN107479368B CN107479368B (zh) 2021-09-21

Family

ID=60596115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710521592.5A Active CN107479368B (zh) 2017-06-30 2017-06-30 一种基于人工智能的训练无人机控制模型的方法及系统

Country Status (2)

Country Link
US (1) US11150655B2 (zh)
CN (1) CN107479368B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及系统
CN108595816A (zh) * 2018-04-18 2018-09-28 石家庄创天电子科技有限公司 基于人工智能的电子产品建模系统及方法
CN109002891A (zh) * 2018-03-15 2018-12-14 小蚁科技(香港)有限公司 神经网络的基于特征的选择性控制
CN109143856A (zh) * 2018-07-31 2019-01-04 佛山科学技术学院 基于深度递归神经网络的自适应健康指标提取方法
CN109164821A (zh) * 2018-09-26 2019-01-08 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN109193075A (zh) * 2018-09-28 2019-01-11 合肥工业大学 基于强化学习的纯电动汽车动力电池冷却系统控制方法
CN109581874A (zh) * 2018-12-29 2019-04-05 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109901589A (zh) * 2019-03-29 2019-06-18 北京易达图灵科技有限公司 移动机器人控制方法和装置
CN110070059A (zh) * 2019-04-25 2019-07-30 吉林大学 一种基于域迁移的非结构化道路检测方法
CN110231829A (zh) * 2019-06-20 2019-09-13 上海大学 基于数据增融的强化学习小型无人旋翼机自主着陆方法
CN110293552A (zh) * 2018-03-21 2019-10-01 北京猎户星空科技有限公司 机械臂控制方法、装置、控制设备及存储介质
CN110442129A (zh) * 2019-07-26 2019-11-12 中南大学 一种多智能体编队的控制方法和系统
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法
WO2019227330A1 (zh) * 2018-05-30 2019-12-05 深圳市大疆创新科技有限公司 一种无人机的仿真方法及装置
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110717260A (zh) * 2019-09-26 2020-01-21 杭州电子科技大学 一种无人机机动能力模型建立方法
CN111181919A (zh) * 2019-11-30 2020-05-19 浙江大学 一种多代理合作场景下的通信协议学习和迁移的方法
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN112286216A (zh) * 2020-11-11 2021-01-29 鹏城实验室 基于视觉识别的无人机自主降落无人艇的方法及系统
CN112414401A (zh) * 2020-11-06 2021-02-26 北京理工大学 基于图神经网络的无人机协同定位系统及方法
CN112461362A (zh) * 2020-11-11 2021-03-09 上海第二工业大学 一种利用无人机进行空间照度监测的系统及方法
CN112506210A (zh) * 2020-12-04 2021-03-16 东南大学 一种用于自主目标跟踪的无人机控制方法
CN112534367A (zh) * 2018-10-01 2021-03-19 欧姆龙株式会社 学习装置、控制装置、学习方法以及学习程序
CN112561057A (zh) * 2020-12-09 2021-03-26 清华大学 一种状态控制方法及装置
CN113009884A (zh) * 2019-12-19 2021-06-22 广州极飞科技股份有限公司 无人设备的作业控制方法、装置、设备及存储介质
CN113273108A (zh) * 2019-01-07 2021-08-17 诺基亚技术有限公司 使用神经网络检测帧中传输的控制信息
CN113485443A (zh) * 2021-08-10 2021-10-08 北京宇系航通科技有限公司 基于深度学习的无人机控制方法、存储介质及设备
CN113778063A (zh) * 2021-09-16 2021-12-10 四川中鼎智能技术有限公司 基于纵向特征数据的设备控制方法及装置
CN113848974A (zh) * 2021-09-28 2021-12-28 西北工业大学 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN111902781B (zh) * 2018-03-28 2023-07-07 三菱电机株式会社 用于控制系统的设备和方法

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10271233B2 (en) 2013-03-15 2019-04-23 DGS Global Systems, Inc. Systems, methods, and devices for automatic signal detection with temporal feature extraction within a spectrum
US11646918B2 (en) 2013-03-15 2023-05-09 Digital Global Systems, Inc. Systems, methods, and devices for electronic spectrum management for identifying open space
US10231206B2 (en) 2013-03-15 2019-03-12 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management for identifying signal-emitting devices
US10299149B2 (en) 2013-03-15 2019-05-21 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management
US9622041B2 (en) 2013-03-15 2017-04-11 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management
US10257727B2 (en) 2013-03-15 2019-04-09 DGS Global Systems, Inc. Systems methods, and devices having databases and automated reports for electronic spectrum management
US10237770B2 (en) 2013-03-15 2019-03-19 DGS Global Systems, Inc. Systems, methods, and devices having databases and automated reports for electronic spectrum management
US10219163B2 (en) 2013-03-15 2019-02-26 DGS Global Systems, Inc. Systems, methods, and devices for electronic spectrum management
US10257729B2 (en) 2013-03-15 2019-04-09 DGS Global Systems, Inc. Systems, methods, and devices having databases for electronic spectrum management
US10700794B2 (en) 2017-01-23 2020-06-30 Digital Global Systems, Inc. Systems, methods, and devices for automatic signal detection based on power distribution by frequency over time within an electromagnetic spectrum
US10459020B2 (en) 2017-01-23 2019-10-29 DGS Global Systems, Inc. Systems, methods, and devices for automatic signal detection based on power distribution by frequency over time within a spectrum
US10529241B2 (en) * 2017-01-23 2020-01-07 Digital Global Systems, Inc. Unmanned vehicle recognition and threat management
US10498951B2 (en) 2017-01-23 2019-12-03 Digital Global Systems, Inc. Systems, methods, and devices for unmanned vehicle detection
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
JP7035734B2 (ja) * 2018-03-30 2022-03-15 富士通株式会社 強化学習プログラム、強化学習方法、および強化学習装置
US11385635B2 (en) * 2018-07-02 2022-07-12 Disney Enterprises, Inc. Autonomous drone play and directional alignment
US10943461B2 (en) 2018-08-24 2021-03-09 Digital Global Systems, Inc. Systems, methods, and devices for automatic signal detection based on power distribution by frequency over time
CN109177979B (zh) * 2018-08-27 2021-01-05 百度在线网络技术(北京)有限公司 评估乘车舒适度的数据处理方法、装置及可读存储介质
CN109302262B (zh) * 2018-09-27 2020-07-10 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
CN111045443B (zh) * 2018-10-11 2021-07-02 北京航空航天大学 无人机通信网络移动控制方法、装置、设备及存储介质
US11423454B2 (en) * 2019-02-15 2022-08-23 Sateesh Kumar Addepalli Real-time customizable AI model collaboration and marketplace service over a trusted AI model network
CN110045747B (zh) * 2019-03-04 2023-09-05 平安科技(深圳)有限公司 基于dqn模拟航空器自动着陆的方法及相关设备
CN110333738A (zh) * 2019-07-10 2019-10-15 华东师范大学 一种基于仿真模拟软件的无人机集群验证方法
KR20210012730A (ko) 2019-07-26 2021-02-03 삼성전자주식회사 인공지능 모델의 학습 방법 및 전자 장치
US11481634B2 (en) * 2019-08-29 2022-10-25 The Boeing Company Systems and methods for training a neural network to control an aircraft
JP7021158B2 (ja) * 2019-09-04 2022-02-16 株式会社東芝 ロボットシステムおよび駆動方法
US20210081498A1 (en) * 2019-09-17 2021-03-18 Disney Enterprises, Inc. Artificial intelligence-based roleplaying experiences based on user-selected scenarios
CN110909762B (zh) * 2019-10-15 2022-10-04 北京航空航天大学 基于多传感器融合的机器人姿态识别方法及装置
CN110955261A (zh) * 2019-12-11 2020-04-03 北京工业大学 一种基于ros的固定翼无人机自动驾驶仪的仿真方法
CN111385806B (zh) * 2020-02-18 2021-10-26 清华大学 一种无人机基站路径规划和带宽资源分配方法及装置
CN111645065A (zh) * 2020-03-25 2020-09-11 南京大学 一种基于深度强化学习的机械臂运动规划方法
CN111854741B (zh) * 2020-06-16 2022-08-09 中国人民解放军战略支援部队信息工程大学 一种gnss/ins紧组合滤波器及导航方法
CN111708355B (zh) * 2020-06-19 2023-04-18 中国人民解放军国防科技大学 基于强化学习的多无人机动作决策方法和装置
RU2742394C1 (ru) * 2020-06-22 2021-02-05 Михаил Андреевич Ищенко Способ построения интеллектуальной системы определения областей маршрутов полета беспилотного летательного аппарата в моделирующих комплексах
CN111880563B (zh) * 2020-07-17 2022-07-15 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN111880567B (zh) * 2020-07-31 2022-09-16 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN112130110A (zh) * 2020-09-10 2020-12-25 北京华跃信息技术有限公司 一种无人机无源定位航迹生成方法及装置
CN112241176B (zh) * 2020-10-16 2022-10-28 哈尔滨工程大学 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法
CN112289044B (zh) * 2020-11-02 2021-09-07 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
US11731652B2 (en) * 2020-12-15 2023-08-22 Woven Planet North America, Inc. Systems and methods for reactive agent simulation
CN112698572B (zh) * 2020-12-22 2022-08-16 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN112925222A (zh) * 2021-02-01 2021-06-08 武汉理工大学 一种基于ros的无人艇运动控制仿真方法及装置
FR3119602B1 (fr) * 2021-02-05 2023-06-16 Thales Sa Procédé et dispositif de guidage automatique d’un aéronef autonome
JP7359176B2 (ja) * 2021-03-03 2023-10-11 横河電機株式会社 判定装置、判定方法、および、判定プログラム
CN113671161B (zh) * 2021-07-13 2023-04-18 郑州大学 一种基于lstm神经网络算法的无人机路面病害检测方法
CN113467248A (zh) * 2021-07-22 2021-10-01 南京大学 基于强化学习的无人机传感器故障时容错控制方法
CN113705777B (zh) * 2021-08-07 2024-04-12 中国航空工业集团公司沈阳飞机设计研究所 一种无人机自主寻径模型训练方法及装置
CN114488852A (zh) * 2022-01-25 2022-05-13 海南大学 面向越野环境的无人驾驶车辆虚拟仿真系统及方法
CN114362175B (zh) * 2022-03-10 2022-06-07 山东大学 基于深度确定性策略梯度算法的风电功率预测方法及系统
CN114492677B (zh) * 2022-04-06 2022-07-12 中国科学院自动化研究所 一种无人机对抗方法及装置
CN114578834B (zh) * 2022-05-09 2022-07-26 北京大学 基于目标分层双感知域的强化学习的无人车路径规划方法
CN115113639B (zh) * 2022-07-25 2023-05-05 中国人民解放军32370部队 一种无人机飞行控制与模拟训练方法及装置
CN116777008B (zh) * 2023-08-15 2023-11-10 北京航天晨信科技有限责任公司 面向无人飞行器逃逸预测建模的数据样本生成方法和系统
CN116974204B (zh) * 2023-08-23 2024-04-09 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备
CN116956758B (zh) * 2023-09-21 2024-02-02 北京航天晨信科技有限责任公司 基于对抗过程仿真模型的策略收益预测方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505182B1 (en) * 1998-10-09 2003-01-07 Van Den Heuvel Raymond C. Recognition engine with time referenced neurons
US20140019392A1 (en) * 2012-06-01 2014-01-16 Brain Corporation Intelligent modular robotic apparatus and methods
CN104880945A (zh) * 2015-03-31 2015-09-02 成都市优艾维机器人科技有限公司 基于神经网络的旋翼无人机的自适应逆控制方法
CN104934968A (zh) * 2015-06-04 2015-09-23 国家电网公司 基于多智能体的配网应灾恢复协调控制方法及装置
CN104978580A (zh) * 2015-06-15 2015-10-14 国网山东省电力公司电力科学研究院 一种用于无人机巡检输电线路的绝缘子识别方法
CN105488528A (zh) * 2015-11-26 2016-04-13 北京工业大学 基于改进自适应遗传算法的神经网络图像分类方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN106127146A (zh) * 2016-06-22 2016-11-16 电子科技大学 一种基于手势识别的无人机航迹指引方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006881B1 (en) * 1991-12-23 2006-02-28 Steven Hoffberg Media recording device with remote graphic user interface
US5903454A (en) * 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
JP3703117B2 (ja) * 1996-07-10 2005-10-05 ヤマハ発動機株式会社 モデルベース制御方法および装置
US8364136B2 (en) * 1999-02-01 2013-01-29 Steven M Hoffberg Mobile system, a method of operating mobile system and a non-transitory computer readable medium for a programmable control of a mobile system
US20040068416A1 (en) * 2002-04-22 2004-04-08 Neal Solomon System, method and apparatus for implementing a mobile sensor network
US20120114229A1 (en) * 2010-01-21 2012-05-10 Guoqing Zhou Orthorectification and mosaic of video flow
US10241520B2 (en) * 2016-12-22 2019-03-26 TCL Research America Inc. System and method for vision-based flight self-stabilization by deep gated recurrent Q-networks
US10133275B1 (en) * 2017-03-01 2018-11-20 Zoox, Inc. Trajectory generation using temporal logic and tree search
WO2018158642A1 (en) * 2017-03-01 2018-09-07 Mobileye Vision Technologies Ltd. Systems and methods for navigating with sensing uncertainty
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
US11137761B2 (en) * 2017-11-20 2021-10-05 At&T Intellectual Property I, L.P. Object modeling with adversarial learning
US20190231985A1 (en) * 2018-01-26 2019-08-01 Becton, Dickinson And Company Flush Syringe With Shielded Tip
US10929664B2 (en) * 2018-03-30 2021-02-23 Iunu, Inc. Visual observer of unmanned aerial vehicle for monitoring horticultural grow operations
US11499837B2 (en) * 2018-09-30 2022-11-15 Strong Force Intellectual Capital, Llc Intelligent transportation systems
KR20210009596A (ko) * 2019-07-17 2021-01-27 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505182B1 (en) * 1998-10-09 2003-01-07 Van Den Heuvel Raymond C. Recognition engine with time referenced neurons
US20140019392A1 (en) * 2012-06-01 2014-01-16 Brain Corporation Intelligent modular robotic apparatus and methods
CN104880945A (zh) * 2015-03-31 2015-09-02 成都市优艾维机器人科技有限公司 基于神经网络的旋翼无人机的自适应逆控制方法
CN104934968A (zh) * 2015-06-04 2015-09-23 国家电网公司 基于多智能体的配网应灾恢复协调控制方法及装置
CN104978580A (zh) * 2015-06-15 2015-10-14 国网山东省电力公司电力科学研究院 一种用于无人机巡检输电线路的绝缘子识别方法
CN105488528A (zh) * 2015-11-26 2016-04-13 北京工业大学 基于改进自适应遗传算法的神经网络图像分类方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN106127146A (zh) * 2016-06-22 2016-11-16 电子科技大学 一种基于手势识别的无人机航迹指引方法

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及系统
CN108321795B (zh) * 2018-01-19 2021-01-22 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及系统
CN109002891A (zh) * 2018-03-15 2018-12-14 小蚁科技(香港)有限公司 神经网络的基于特征的选择性控制
CN110293552A (zh) * 2018-03-21 2019-10-01 北京猎户星空科技有限公司 机械臂控制方法、装置、控制设备及存储介质
CN111902781B (zh) * 2018-03-28 2023-07-07 三菱电机株式会社 用于控制系统的设备和方法
CN108595816A (zh) * 2018-04-18 2018-09-28 石家庄创天电子科技有限公司 基于人工智能的电子产品建模系统及方法
CN108595816B (zh) * 2018-04-18 2021-05-28 石家庄创天电子科技有限公司 基于人工智能的电子产品建模系统及方法
WO2019200625A1 (zh) * 2018-04-18 2019-10-24 石家庄创天电子科技有限公司 基于人工智能的电子产品建模系统及方法
WO2019227330A1 (zh) * 2018-05-30 2019-12-05 深圳市大疆创新科技有限公司 一种无人机的仿真方法及装置
CN109143856A (zh) * 2018-07-31 2019-01-04 佛山科学技术学院 基于深度递归神经网络的自适应健康指标提取方法
CN109164821A (zh) * 2018-09-26 2019-01-08 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN109164821B (zh) * 2018-09-26 2019-05-07 中科物栖(北京)科技有限责任公司 一种无人机姿态训练方法及装置
CN109193075A (zh) * 2018-09-28 2019-01-11 合肥工业大学 基于强化学习的纯电动汽车动力电池冷却系统控制方法
CN112534367B (zh) * 2018-10-01 2023-09-19 欧姆龙株式会社 学习装置、控制装置、学习方法以及计算机可读存储介质
US11971709B2 (en) 2018-10-01 2024-04-30 Omron Corporation Learning device, control device, learning method, and recording medium
CN112534367A (zh) * 2018-10-01 2021-03-19 欧姆龙株式会社 学习装置、控制装置、学习方法以及学习程序
CN109581874B (zh) * 2018-12-29 2022-04-05 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109581874A (zh) * 2018-12-29 2019-04-05 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN113273108A (zh) * 2019-01-07 2021-08-17 诺基亚技术有限公司 使用神经网络检测帧中传输的控制信息
CN109901589B (zh) * 2019-03-29 2022-06-07 北京易达图灵科技有限公司 移动机器人控制方法和装置
CN109901589A (zh) * 2019-03-29 2019-06-18 北京易达图灵科技有限公司 移动机器人控制方法和装置
CN110070059A (zh) * 2019-04-25 2019-07-30 吉林大学 一种基于域迁移的非结构化道路检测方法
CN110070059B (zh) * 2019-04-25 2022-07-29 吉林大学 一种基于域迁移的非结构化道路检测方法
CN110231829B (zh) * 2019-06-20 2022-01-07 上海大学 基于数据增融的强化学习小型无人旋翼机自主着陆方法
CN110231829A (zh) * 2019-06-20 2019-09-13 上海大学 基于数据增融的强化学习小型无人旋翼机自主着陆方法
CN110442129B (zh) * 2019-07-26 2021-10-22 中南大学 一种多智能体编队的控制方法和系统
CN110442129A (zh) * 2019-07-26 2019-11-12 中南大学 一种多智能体编队的控制方法和系统
CN110471444B (zh) * 2019-08-19 2022-07-12 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110717260A (zh) * 2019-09-26 2020-01-21 杭州电子科技大学 一种无人机机动能力模型建立方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110673620B (zh) * 2019-10-22 2020-10-27 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111181919A (zh) * 2019-11-30 2020-05-19 浙江大学 一种多代理合作场景下的通信协议学习和迁移的方法
CN113009884A (zh) * 2019-12-19 2021-06-22 广州极飞科技股份有限公司 无人设备的作业控制方法、装置、设备及存储介质
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN112414401A (zh) * 2020-11-06 2021-02-26 北京理工大学 基于图神经网络的无人机协同定位系统及方法
CN112461362A (zh) * 2020-11-11 2021-03-09 上海第二工业大学 一种利用无人机进行空间照度监测的系统及方法
CN112461362B (zh) * 2020-11-11 2023-09-26 上海第二工业大学 一种利用无人机进行空间照度监测的系统及方法
CN112286216A (zh) * 2020-11-11 2021-01-29 鹏城实验室 基于视觉识别的无人机自主降落无人艇的方法及系统
CN112506210B (zh) * 2020-12-04 2022-12-27 东南大学 一种用于自主目标跟踪的无人机控制方法
CN112506210A (zh) * 2020-12-04 2021-03-16 东南大学 一种用于自主目标跟踪的无人机控制方法
CN112561057A (zh) * 2020-12-09 2021-03-26 清华大学 一种状态控制方法及装置
CN113485443A (zh) * 2021-08-10 2021-10-08 北京宇系航通科技有限公司 基于深度学习的无人机控制方法、存储介质及设备
CN113485443B (zh) * 2021-08-10 2023-12-22 北京北航天宇长鹰无人机科技有限公司 基于深度学习的无人机控制方法、存储介质及设备
CN113778063A (zh) * 2021-09-16 2021-12-10 四川中鼎智能技术有限公司 基于纵向特征数据的设备控制方法及装置
CN113778063B (zh) * 2021-09-16 2023-06-27 四川中鼎智能技术有限公司 基于纵向特征数据的设备控制方法及装置
CN113848974A (zh) * 2021-09-28 2021-12-28 西北工业大学 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN113848974B (zh) * 2021-09-28 2023-08-15 西安因诺航空科技有限公司 一种基于深度强化学习的飞行器轨迹规划方法及系统

Also Published As

Publication number Publication date
US20190004518A1 (en) 2019-01-03
US11150655B2 (en) 2021-10-19
CN107479368B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN107479368A (zh) 一种基于人工智能的训练无人机控制模型的方法及系统
Song et al. Flightmare: A flexible quadrotor simulator
O'Kelly et al. F1/10: An open-source autonomous cyber-physical platform
Hong et al. Energy-efficient online path planning of multiple drones using reinforcement learning
Lin et al. Flying through a narrow gap using neural network: an end-to-end planning and control approach
Hanover et al. Autonomous drone racing: A survey
CN114488848A (zh) 面向室内建筑空间的无人机自主飞行系统及仿真实验平台
KR20130133480A (ko) 깊이 지도를 이용한 멀티로터의 착륙 위치 결정 방법 및 그 장치
Sarabakha et al. Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm
CN115480582A (zh) 基于lstm的目标的机动预测方法、电子设备和存储介质
Doukhi et al. Deep reinforcement learning for autonomous map-less navigation of a flying robot
Nikolenko Synthetic simulated environments
Chao et al. Brain inspired path planning algorithms for drones
Pokhrel Drone obstacle avoidance and navigation using artificial intelligence
Silano et al. MAT-fly: an educational platform for simulating unmanned aerial vehicles aimed to detect and track moving objects
Serhat Development stages of a semi-autonomous underwater vehicle experiment platform
CN116009583A (zh) 基于纯粹视觉的分布式无人机协同运动控制方法和装置
Guerra et al. Flightgoggles: A modular framework for photorealistic camera, exteroceptive sensor, and dynamics simulation
CN114964268A (zh) 一种无人机导航方法及装置
Miera et al. LiDAR-based drone navigation with reinforcement learning
AbdElHamid et al. A novel software simulator model based on active hybrid architecture
Alqahtani et al. Motion control of a terrain following unmanned aerial vehicle under uncertainty
US20210147079A1 (en) Autonomous behavior generation with hierarchical reinforcement learning
CN113985732B (zh) 针对飞行器系统的自适应神经网络控制方法及装置
Qin et al. Quadrotor UAV Virtual Reality Verification Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant