CN111627064B - 一种行人交互友好型的单目避障方法 - Google Patents

一种行人交互友好型的单目避障方法 Download PDF

Info

Publication number
CN111627064B
CN111627064B CN202010335557.6A CN202010335557A CN111627064B CN 111627064 B CN111627064 B CN 111627064B CN 202010335557 A CN202010335557 A CN 202010335557A CN 111627064 B CN111627064 B CN 111627064B
Authority
CN
China
Prior art keywords
network
unmanned aerial
aerial vehicle
obstacle avoidance
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010335557.6A
Other languages
English (en)
Other versions
CN111627064A (zh
Inventor
杨柳
薛喜地
李湛
李东洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Skorui Technology Co ltd
Original Assignee
Harbin Institute of Technology
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, Harbin University of Science and Technology filed Critical Harbin Institute of Technology
Priority to CN202010335557.6A priority Critical patent/CN111627064B/zh
Publication of CN111627064A publication Critical patent/CN111627064A/zh
Application granted granted Critical
Publication of CN111627064B publication Critical patent/CN111627064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/933Lidar systems specially adapted for specific applications for anti-collision purposes of aircraft or spacecraft
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种行人交互友好型的单目避障方法,属于无人机导航领域,本发明为解决搭载单目摄像头的室内无人机避障性能不佳的问题。本发明方法为无人机利用单目摄像头采集图片,所述图片输入至端到端策略的并行深度神经网络结构中,该网格结构输出最佳航向角作为无人机避障的飞行指令;所述端到端策略的并行深度神经网络结构由单目摄像头结合单线激光雷达协同完成,训练过程为:步骤一、利用单线激光雷达采集的深度值搜索最佳航向,并为单目摄像头采集的图片打标签,建立数据集;步骤二、所述数据集分别输入至Resnet18网络和预训练好的YOLO v3网络中;步骤三、利用步骤一的数据集训练步骤二所述并行深度神经网络直至收敛。

Description

一种行人交互友好型的单目避障方法
技术领域
本发明涉及Resnet18深度神经网络结合YOLOv3深度神经网络组成并行网络结构,来解决有行人情景下的单目视觉避障技术,属于无人机导航领域。
Resnet(Residual Neural Network,残差神经网络),YOLO(You Only Look Once:Unified,Real-Time Object Detection只看一次:统一的实时对象检测)。
背景技术
随着无人机行业的发展,无人机的自主导航是许多无人机应用的核心,例如在多无人机协调,无人机建图和无人机室内任务等。然而,由于室内空间较小,人员动态性较高等原因,所用的无人机尺寸有限,因此小型无人机上面所能搭载的传感器也非常有限(往往只搭载单目摄像头),因此依靠有限的传感器使得无人机在室内自主导航避障仍然是一项有挑战性的工作。
目前根据无人机路径规划是否是基于轨迹法,将无人机导航算法分为两大类,分别是基于轨迹规划和基于动作响应的(端到端决策)方法。对于基于轨迹规划的方法,其优点在于通过动态规划,可以求解出一条全局最优路径,其结果更加可控,更加稳定,但是该类方法带来的弊端是算法耗时长,比较依赖计算机的算力,而且往往基于轨迹规划的算法的泛化能力会相对比较弱一些。对于基于动作响应的方法,此类方法的优点在于其为端到端决策类型的算法,通常算法决策耗时比较短,同时目前基于端到端的算法的泛化能力普遍要优于基于轨迹的方法,但是基于端到端的方法的短板也非常明显,那就是其决策并不一定是全局最优解。
对于基于响应类的避障算法分为自主学习类和非自主学习类,非自主学习类的算法诸如人工势场法等算法,但由于当无人机距离障碍物过近或者离目标位置太远将会导致局部震荡等一系列问题,虽然后续有改进版本的人工势场法,但也使得其参数变得很难整定,实际应用起来很难。对于自主学习类的无人机避障算法,目前主要是基于深度强化学习和深度学习的方法。目前应用深度强化学习进行无人机室内避障较为成功的案例有诸如基于状态值估计的Generalization through Simulation Integrating Simulated andReal Data into Deep Reinforcement Learning for Vision Based Autonomous Flight(GTS,通过仿真将模拟和实际数据集成到基于视觉的自主飞行的深度强化学习中进行泛化),该方法为端到端决策方法。
然而对于该深度强化学习GTS避障算法而言具有以下缺陷,首先,其利用仿真环境训练出来的状态值估计网络,其对动作空间里所有的动作采取的是利用状态值估计网络逐个评估的方法,这意味着在决策时会加大响应延迟;其次,其采用离散动作空间,这意味着无人机的决策动作也将变得离散,动作不是那么平滑;最后,该GTS避障算法将仿真环境训练好的网络移植到实物无人机上,由于网络模型过于简单,在实物效果上表现为避障裕度不够、路径不稳定。
室内有限空间下的小型无人机只能搭载单目摄像头,因单目摄像头难以求取深度信息而无法感知到全局信息,目前没人将响应延迟高、避障路径不稳定、裕度不足的端到端避障算法应用在无人的环境下进行飞行试验,在室内环境中行人运动的特点是随机性比较强,同时人们喜欢聚焦、围观,这使得端到端避障算法的实用性大大下降,甚至无法使用。
发明内容
本发明目的是为了解决搭载单目摄像头的室内无人机避障性能不佳的问题,提供了一种行人交互友好型的单目避障方法。
本发明所述一种行人交互友好型的单目避障方法,该方法为无人机利用单目摄像头采集图片,所述图片输入至端到端策略的并行深度神经网络结构中,该网格结构输出最佳航向角作为无人机避障的飞行指令;
所述端到端策略的并行深度神经网络结构由单目摄像头结合单线激光雷达协同完成,端到端策略的并行深度神经网络结构的具体训练过程为:
步骤一、利用单线激光雷达采集的深度值搜索最佳航向,并为单目摄像头采集的图片打标签,以此标准采集多个样本建立数据集;
步骤二、所述数据集分别输入至Resnet18网络和预训练好的YOLO v3网络中,利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息;并与Resnet18网络输出数据合并,合并后的数据依次经过隐藏层1~4和输出层,Resnet18网络、训练好的YOLO v3网络、隐藏层1~4和输出层组成并行深度网络结构;
步骤三、利用步骤一的数据集训练步骤二所述并行深度神经网络直至收敛。
优选地,步骤一建立数据集的过程为:
步骤一一、单线激光雷达与单目摄像头同步采集图像(image,lidarData),其中image和lidarData分别是同一时刻单目摄像头采集的视觉图像和单线激光雷达采集的深度值;
步骤一二、利用单线激光雷达采集的深度值搜索无人机每个时刻最佳航向,并为同时刻视觉图像打标签形成样本图像(image,direction),其中direction为最佳航向角;
步骤一三、将经过步骤一二处理过的所有样本图像建立数据集。
优选地,步骤一二中利用单线激光雷达采集的深度值搜索无人机每个时刻最佳航向的具体过程为:
directionn=mid(max(lidarData_blank)n) (1)
式中,max(lidarData_blank)n代表求取tn时刻单线激光雷达覆盖范围内连续空白区域面积最大的区域,n=1,2,L
mid(max(lidarData_blank)n)代表求取区域max(lidarData_blank)n的中心航向角,将求取出的mid(max(lidarData_blank)n)作为tn时刻无人机的最佳航向角directionn
优选地,步骤二中利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息,其具体为:
personn=(xt1,yt1,xb1,yb1,xt2,yt2,xb2,yb2...xti,yti,xbi,ybi...xtI,ytI,xbI,ybI) (2)
式中,(xti,yti,xbi,ybi)代表tn时刻图像中第i个行人预测框在图像中的左上角顶点坐标和右下角顶点坐标,i=1,2,L,I,I代表tn时刻图像中的行人总个数,personn代表tn时刻图像中全部行人预测框在图像中的左上角顶点坐标和右下角顶点坐标组成的集合。
优选地,并行深度神经网络结构包括Resnet18网络、训练好的YOLO v3网络、隐藏层1~4和输出层,其中Resnet18网络的神经元个数为7168,训练好的YOLO v3网络输出的行人信息个数为40,隐藏层1、隐藏层2、隐藏层3、隐藏层4和输出层的神经元个数分别为7208、256、128、16和1。
优选地,并行深度神经网络的隐藏层1~4均采用ReLU激活函数,输出层采用Linear激活函数。
优选地,并行深度神经网络的代价函数采用均方误差,代价函数的表达式如公式(3)所示:
Figure BDA0002466426010000031
式中,Loss代表代价函数,yj代表第j张样本图像对应的并行深度神经网络的输出结果,
Figure BDA0002466426010000032
代表第j张样本图像对应的最佳航向角,m代表一个批次的样本图像数量。
优选地,无人机利用单目摄像头采集图片,所述图片输入至端到端策略的并行深度神经网络结构中,该网格结构输出最佳航向角作为无人机避障的飞行指令的具体过程为:
步骤1、无人机在室内环境飞行过程中任意时刻均利用单目摄像头采集图像image;
步骤2、利用预训练好的YOLO v3网络输出对图像image中40位行人位置的预测信息personn=(xt1,yt1,xb1,yb1,xt2,yt2,xb2,yb2...xti,yti,xbi,ybi...xtI,ytI,xbI,ybI);
步骤3、图像image同时输入至Resnet18网络并输出7168位神经元数据,与步骤2的40位行人位置的预测信息合并;
步骤4、步骤3合并数据依次经过隐藏层1~4,最后由输出层输出最佳航向角作为无人机避障的飞行指令。
本发明的优点:
1)本发明解决了现有的端到端无人机室内避障在算法上存在的避障路径不稳定、泛化能力不足的问题。
2)本发明通过结合YOLO v3深度神经网络结构,解决了现有端到端单目无人机室内避障算法在室内有行人场景下避障性能不佳、甚至不能使用的问题。
3)本发明通过设计采用并行神经网络结构,利用双线程运行该网络的两个分支,解决了现有端到端单目无人机室内避障算法的决策网络耗时过多的问题。
4)在训练并行深度神经网络时利用单目摄像头与单线激光雷达结合设备,训练后的并行深度神经网络植入无人机,无人机在执行任务时无需搭载激光雷达,只需搭载单目摄像头即可完成避障飞行任务。
附图说明
图1是本发明方法涉及的训练并行深度神经网络所使用设备的结构示意图;
图2是单线激光雷达搜索策略示意图;
图3是并行深度神经网络结构示意图;
图4是代价函数下降曲线图。
具体实施方式
具体实施方式一:下面结合图1至图4说明本实施方式,本实施方式所述一种行人交互友好型的单目避障方法,该方法为无人机利用单目摄像头采集图片,所述图片输入至端到端策略的并行深度神经网络结构中,该网格结构输出最佳航向角作为无人机避障的飞行指令;
所述端到端策略的并行深度神经网络结构由单目摄像头结合单线激光雷达协同完成,端到端策略的并行深度神经网络结构的具体训练过程为:
步骤一、利用单线激光雷达采集的深度值搜索最佳航向,并为单目摄像头采集的图片打标签,以此标准采集多个样本建立数据集;
建立数据集的过程为:
步骤一一、单线激光雷达与单目摄像头同步采集图像(image,lidarData),其中image和lidarData分别是同一时刻单目摄像头采集的视觉图像和单线激光雷达采集的深度值;
利用图1所示设备,将单目摄像头1与单线激光雷达2固定在一起,该设备可以方便手持,因此采集数据的时候可以人为手持该设备在室内进行数据采集工作。单目摄像头1与单线激光雷达2同步采集回来的数据图像格式为(image,lidarData),其中image和lidarData分别是同一时刻摄像头采集的图像和激光雷达采集的深度值数据,两种类型的数据进行同帧结合可同时获得任一时刻单目摄像头采集图像信息及对应的深度值信息,图片image大小为640*480,RGB格式。
步骤一二、利用单线激光雷达采集的深度值搜索无人机每个时刻最佳航向,并为同时刻视觉图像打标签形成样本图像(image,direction),其中direction为最佳航向角(作为标签);
每一时刻图像image均配套对应的深度值数据,利用单线激光雷达采集的深度值搜索无人机在该时刻最佳航向,具体过程为:
directionn=mid(max(lidarData_blank)n) (1)
式中,max(lidarData_blank)n代表求取tn时刻单线激光雷达覆盖范围内连续空白区域面积最大的区域,n=1,2,L,单线激光雷达覆盖范围为0~180°范围。
mid(max(lidarData_blank)n)代表求取区域max(lidarData_blank)n的中心航向角,将求取出的mid(max(lidarData_blank)n)作为tn时刻无人机的最佳航向角directionn
参见图2所示,单线激光雷达采集正前方180°范围下的每个角度所对应的深度值。激光雷达所发射的射线如图2中实线所示。其中虚线是公式(1)处理后提取出来的当前的最佳航向。
步骤一三、将经过步骤一二处理过的所有样本图像建立数据集。
比如利用图1设备采集10万份图像,处理后生成10万份样本图像建立(image,direction)格式数据集,该打有标签的数据集用于训练并行深度网络结构。
步骤二、所述数据集分别输入至Resnet18网络和预训练好的YOLO v3网络中,利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息;并与Resnet18网络输出数据合并,合并后的数据依次经过隐藏层1~4和输出层,Resnet18网络、训练好的YOLO v3网络、隐藏层1~4和输出层组成并行深度网络结构;
本步骤中利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息,YOLO v3网络为已训练好的网络结构,网络中参数为已知量,本步骤利用该网络结构离线处理数据,不与训练并行深度网络结构争内存,有效的提高了整体的运行速度,其具体为:
personn=(xt1,yt1,xb1,yb1,xt2,yt2,xb2,yb2...xti,yti,xbi,ybi...xtI,ytI,xbI,ybI) (2)
式中,(xti,yti,xbi,ybi)代表tn时刻图像中第i个行人预测框在图像中的左上角顶点坐标和右下角顶点坐标,i=1,2,L,I,I代表tn时刻图像中的行人总个数,personn代表tn时刻图像中全部行人预测框在图像中的左上角顶点坐标和右下角顶点坐标组成的集合。
一张同样的样本图像分别输入给resnet18网络和YOLO v3网络,其中YOLO v3网络输出行人预测的向量信息,格式如式子(2)所示。其中(xti,yti,xbi,ybi)表示视野中第i个行人预测框在图片中的左上角坐标跟右下角坐标,这里取行人个数上限为I=10个人,因为对于一般情况室内同一视野内同时近距离出现超过10个人的可能性非常小。若当前视野内人数不足10个,则该向量末端用0补齐。最后,再将YOLO v3网络输出的person向量与resnet18卷积层的输出向量(一维)拼接成一个新的一维向量(7168+40=7208)。
步骤三、利用步骤一的数据集训练步骤二所述并行深度神经网络直至收敛。
并行深度神经网络结构包括Resnet18网络、训练好的YOLO v3网络、隐藏层1~4和输出层,其中Resnet18网络的神经元个数为7168,训练好的YOLO v3网络输出的行人信息个数为40,隐藏层1、隐藏层2、隐藏层3、隐藏层4和输出层的神经元个数分别为7208、256、128、16和1的全连接层。并行深度神经网络中只有YOLO v3网络是训练好的,其参数为已知,其余均需要进行训练才能获取其参数。
在并行深度神经网络结构中,Resnet18网络主体结构为卷积层,其缺乏全连接层,缺少全连接层会使得网络对数据集的拟合能力不足。因此本发明添加了4个隐藏层(7208、256、128、16)来提高网络对数据集的拟合能力。
并行深度神经网络的隐藏层1~4均采用ReLU激活函数,输出层采用Linear激活函数。
并行深度神经网络的代价函数采用均方误差,代价函数的表达式如公式(3)所示:
Figure BDA0002466426010000061
式中,Loss代表代价函数,yj代表第j张样本图像对应的并行深度神经网络的输出结果,
Figure BDA0002466426010000071
代表第j张样本图像对应的最佳航向角,m代表一个批次的样本图像数量。
将10万个样本图像输入至并行深度神经网络进行训练,选择一个批次的数据为m=64,即batch_size=64。训练200个epoch大约需要花费20h的时间(计算机配置为GPU1080Ti;CPU i7 8700K)。batch_size表示1次迭代所使用的样本量,将整个数据(10万)遍历一遍,叫做一个epoch,其中,训练过程中的代价函数下降曲线如图4所示。可以看出,该网络最终可以收敛。
无人机利用单目摄像头采集图片,所述图片输入至端到端策略的并行深度神经网络结构中,该网格结构输出最佳航向角作为无人机避障的飞行指令的具体过程为:
步骤1、无人机在室内环境飞行过程中任意时刻均利用单目摄像头采集图像image;
步骤2、利用预训练好的YOLO v3网络输出对图像image中40位行人位置的预测信息personn=(xt1,yt1,xb1,yb1,xt2,yt2,xb2,yb2...xti,yti,xbi,ybi...xtI,ytI,xbI,ybI);
步骤3、图像image同时输入至Resnet18网络并输出7168位神经元数据,与步骤2的40位行人位置的预测信息合并;
步骤4、步骤3合并数据依次经过隐藏层1~4,最后由输出层输出最佳航向角作为无人机避障的飞行指令。

Claims (8)

1.一种行人交互友好型的单目避障方法,其特征在于,该方法为无人机利用单目摄像头采集图片,所述图片输入至端到端策略的并行深度神经网络结构中,该网格结构输出最佳航向角作为无人机避障的飞行指令;
所述端到端策略的并行深度神经网络结构由单目摄像头结合单线激光雷达协同完成,端到端策略的并行深度神经网络结构的具体训练过程为:
步骤一、利用单线激光雷达采集的深度值搜索最佳航向,并为单目摄像头采集的图片打标签,以此标准采集多个样本建立数据集;
步骤二、所述数据集分别输入至Resnet18网络和预训练好的YOLO v3网络中,利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息;并与Resnet18网络输出数据合并,合并后的数据依次经过隐藏层1~4和输出层,Resnet18网络、训练好的YOLO v3网络、隐藏层1~4和输出层组成并行深度网络结构;
步骤三、利用步骤一的数据集训练步骤二所述并行深度神经网络直至收敛。
2.根据权利要求1所述一种行人交互友好型的单目避障方法,其特征在于,步骤一建立数据集的过程为:
步骤一一、单线激光雷达与单目摄像头同步采集图像(image,lidarData),其中image和lidarData分别是同一时刻单目摄像头采集的视觉图像和单线激光雷达采集的深度值;
步骤一二、利用单线激光雷达采集的深度值搜索无人机每个时刻最佳航向,并为同时刻视觉图像打标签形成样本图像(image,direction),其中direction为最佳航向角;
步骤一三、将经过步骤一二处理过的所有样本图像建立数据集。
3.根据权利要求2所述一种行人交互友好型的单目避障方法,其特征在于,步骤一二中利用单线激光雷达采集的深度值搜索无人机每个时刻最佳航向的具体过程为:
directionn=mid(max(lidarData_blank)n) (1)
式中,max(lidarData_blank)n代表求取tn时刻单线激光雷达覆盖范围内连续空白区域面积最大的区域,n=1,2,…
mid(max(lidarData_blank)n)代表求取区域max(lidarData_blank)n的中心航向角,将求取出的mid(max(lidarData_blank)n)作为tn时刻无人机的最佳航向角directionn
4.根据权利要求3所述一种行人交互友好型的单目避障方法,其特征在于,步骤二中利用预训练好的YOLO v3网络输出对各图像中行人位置的预测信息,其具体为:
personn=(xt1,yt1,xb1,yb1,xt2,yt2,xb2,yb2...xti,yti,xbi,ybi...xtI,ytI,xbI,ybI) (2)
式中,(xti,yti,xbi,ybi)代表tn时刻图像中第i个行人预测框在图像中的左上角顶点坐标和右下角顶点坐标,i=1,2,…,I,I代表tn时刻图像中的行人总个数,personn代表tn时刻图像中全部行人预测框在图像中的左上角顶点坐标和右下角顶点坐标组成的集合。
5.根据权利要求4所述一种行人交互友好型的单目避障方法,其特征在于,并行深度神经网络结构包括Resnet18网络、训练好的YOLO v3网络、隐藏层1~4和输出层,其中Resnet18网络的神经元个数为7168,训练好的YOLO v3网络输出的行人信息个数为40,隐藏层1、隐藏层2、隐藏层3、隐藏层4和输出层的神经元个数分别为7208、256、128、16和1。
6.根据权利要求5所述一种行人交互友好型的单目避障方法,其特征在于,并行深度神经网络的隐藏层1~4均采用ReLU激活函数,输出层采用Linear激活函数。
7.根据权利要求6所述一种行人交互友好型的单目避障方法,其特征在于,并行深度神经网络的代价函数采用均方误差,代价函数的表达式如公式(3)所示:
Figure FDA0002466426000000021
式中,Loss代表代价函数,yj代表第j张样本图像对应的并行深度神经网络的输出结果,
Figure FDA0002466426000000022
代表第j张样本图像对应的最佳航向角,m代表一个批次的样本图像数量。
8.根据权利要求7所述一种行人交互友好型的单目避障方法,其特征在于,无人机利用单目摄像头采集图片,所述图片输入至端到端策略的并行深度神经网络结构中,该网格结构输出最佳航向角作为无人机避障的飞行指令的具体过程为:
步骤1、无人机在室内环境飞行过程中任意时刻均利用单目摄像头采集图像image;
步骤2、利用预训练好的YOLO v3网络输出对图像image中40位行人位置的预测信息personn=(xt1,yt1,xb1,yb1,xt2,yt2,xb2,yb2...xti,yti,xbi,ybi...xtI,ytI,xbI,ybI);
步骤3、图像image同时输入至Resnet18网络并输出7168位神经元数据,与步骤2的40位行人位置的预测信息合并;
步骤4、步骤3合并数据依次经过隐藏层1~4,最后由输出层输出最佳航向角作为无人机避障的飞行指令。
CN202010335557.6A 2020-04-25 2020-04-25 一种行人交互友好型的单目避障方法 Active CN111627064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010335557.6A CN111627064B (zh) 2020-04-25 2020-04-25 一种行人交互友好型的单目避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010335557.6A CN111627064B (zh) 2020-04-25 2020-04-25 一种行人交互友好型的单目避障方法

Publications (2)

Publication Number Publication Date
CN111627064A CN111627064A (zh) 2020-09-04
CN111627064B true CN111627064B (zh) 2021-07-09

Family

ID=72271697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010335557.6A Active CN111627064B (zh) 2020-04-25 2020-04-25 一种行人交互友好型的单目避障方法

Country Status (1)

Country Link
CN (1) CN111627064B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108909624A (zh) * 2018-05-13 2018-11-30 西北工业大学 一种基于单目视觉的实时障碍物检测和定位方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110315535A (zh) * 2019-06-10 2019-10-11 西北工业大学 一种基于连续路径的机器人目标抓取检测方法
US10474464B2 (en) * 2017-07-05 2019-11-12 Deep Vision, Inc. Deep vision processor

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034018B (zh) * 2018-07-12 2022-01-21 北京航空航天大学 一种基于双目视觉的低空小型无人机障碍物感知方法
US11249492B2 (en) * 2019-03-26 2022-02-15 Intel Corporation Methods and apparatus to facilitate autonomous navigation of robotic devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474464B2 (en) * 2017-07-05 2019-11-12 Deep Vision, Inc. Deep vision processor
CN108909624A (zh) * 2018-05-13 2018-11-30 西北工业大学 一种基于单目视觉的实时障碍物检测和定位方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN110315535A (zh) * 2019-06-10 2019-10-11 西北工业大学 一种基于连续路径的机器人目标抓取检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Inland River Ship Auxiliary Collision Avoidance System;Ruidong Zheng et al;《2019 18th International Symposium on Distributed Computing and Applications for Business Engineering and Science (DCABES)》;20191205;第53-56页 *

Also Published As

Publication number Publication date
CN111627064A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
Padhy et al. Deep neural network for autonomous uav navigation in indoor corridor environments
CN108230361B (zh) 用无人机探测器和追踪器融合来增强目标追踪方法及系统
Budiharto et al. Fast object detection for quadcopter drone using deep learning
Yang et al. Fast depth prediction and obstacle avoidance on a monocular drone using probabilistic convolutional neural network
US20190147610A1 (en) End-to-End Tracking of Objects
CN111578940B (zh) 一种基于跨传感器迁移学习的室内单目导航方法及系统
CN110874578B (zh) 一种基于强化学习的无人机视角车辆识别追踪方法
CN111210518A (zh) 基于视觉融合地标的拓扑地图生成方法
CN104463191A (zh) 一种基于注意机制的机器人视觉处理方法
Stein et al. Genesis-rt: Generating synthetic images for training secondary real-world tasks
Yang et al. Reactive obstacle avoidance of monocular quadrotors with online adapted depth prediction network
CN116343330A (zh) 一种红外-可见光图像融合的异常行为识别方法
Anwar et al. NavREn-Rl: Learning to fly in real environment via end-to-end deep reinforcement learning using monocular images
CN114708435A (zh) 基于语义分割的障碍物尺寸预测与不确定性分析方法
Yan et al. Human-object interaction recognition using multitask neural network
CN111611869B (zh) 一种基于串行深度神经网络的端到端单目视觉避障方法
CN113553943B (zh) 目标实时检测方法以及装置、存储介质、电子装置
Dai et al. Camera view planning based on generative adversarial imitation learning in indoor active exploration
Radwan Leveraging sparse and dense features for reliable state estimation in urban environments
Yang et al. A semantic SLAM-based method for navigation and landing of UAVs in indoor environments
Bouazizi et al. Learning temporal 3d human pose estimation with pseudo-labels
Andersen et al. Event-based navigation for autonomous drone racing with sparse gated recurrent network
CN116661498A (zh) 一种基于动态视觉传感和神经网络的障碍物目标跟踪方法
CN111627064B (zh) 一种行人交互友好型的单目避障方法
Zhao et al. DHA: Lidar and vision data fusion-based on road object classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221109

Address after: No. 02, No. 22D, Floor 22, Building A, Building 1, No. 48, North Third Ring West Road, Haidian District, Beijing 100000

Patentee after: Beijing Skorui Technology Co.,Ltd.

Address before: 150080 No. 52, Xuefu Road, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN University OF SCIENCE AND TECHNOLOGY

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right