CN112873211A - 一种机器人人机交互方法 - Google Patents
一种机器人人机交互方法 Download PDFInfo
- Publication number
- CN112873211A CN112873211A CN202110206075.5A CN202110206075A CN112873211A CN 112873211 A CN112873211 A CN 112873211A CN 202110206075 A CN202110206075 A CN 202110206075A CN 112873211 A CN112873211 A CN 112873211A
- Authority
- CN
- China
- Prior art keywords
- matrix
- layer
- network
- neural network
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 103
- 230000004927 fusion Effects 0.000 claims abstract description 54
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 16
- 238000010606 normalization Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 12
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000004888 barrier function Effects 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 claims description 6
- 230000001276 controlling effect Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 7
- 230000016776 visual perception Effects 0.000 abstract description 3
- 238000011176 pooling Methods 0.000 description 11
- 230000004438 eyesight Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
- B25J9/1689—Teleoperation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/005—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 with correlation of navigation data from several sources, e.g. map or contour matching
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/86—Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/89—Lidar systems specially adapted for specific applications for mapping or imaging
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Electromagnetism (AREA)
- Automation & Control Theory (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于机器人主动视觉感知、语言交互、雷达避障以及深度学习技术领域,尤其涉及一种机器人人机交互方法。本方法拍摄环境的RGB图像与深度图,并探测障碍物信息获取激光雷达数组,对获取数据进行归一化处理,构建人机交互中的问题编码网络将问题进行编码;构建图像特征提取网络,将RGB图像与深度图像信息提取成为一个特征矩阵,将激光雷达数据、问题编码和特征矩阵进行拼接得到特征融合矩阵;采用卷积网络获取数据融合矩阵作为周边环境的数据融合矩阵;训练一个循环神经网络作为导航器,将数据融合矩阵作为输入,输出导航结果,控制机器人运动方向。本方法实现了机器人自我导航,自我探索,人机交互等功能,提升机器人的智能性。
Description
技术领域
本发明属于机器人主动视觉感知、语言交互、雷达避障以及深度学习技术领域,尤其涉及一种机器人人机交互方法。
背景技术
现如今,自主机器人可以在没有人为干预的情况下,独立操作完成特定的任务。作为自主机器人的一个主要的属性——自主运动,主要取决于准确的运动估计和高层次的环境感知。但是,在某些情况下,人工地标是不可知的,或者机器人处于GPS缺失的环境中,这样自我运动估计或获取场景信息就遭遇很大的困难。技术上,移动机器人通过感知环境逐渐的构建一个与环境全局一致的地图,与此同时借助此地图实现自我定位。很长时间以来,机器人导航问题基本上是通过一系列距离传感器来解决的,比如光线检测和测距,红外辐射,或声纳导航和测距,这些适用于小范围静态环境中(各种距离传感器受限于他们独自的物理属性)。但是,在动态、复杂和大范围环境下,机器人的建图与导航可能面对很多挑战。
基于视觉的无地图导航问答系统由于其无需构建地图,对环境的依赖程度较低并且可以进行人机交互而被广泛研究。机器人在任意一个未知区域,通过被提问的问题而进行视觉导航,即通过对外围环境的第一人称感知实现自主无地图导航,最终到达问题所关注的区域,经过探索环境区域而进行知识问答。科技工作者更是通过开发设计了大量3D仿真环境来模拟实现机器人基于视觉的无地图导航知识问答系统,其中一个就是利用深度学习,通过大量数据以及多次试验,训练了一个端到端的网络以实现未知环境的无地图导航与问答。但是在现实环境中设计与实现基于视觉的无地图导航问答系统并不多见,尤其是将激光雷达与视觉传感器数据融合的无地图导航问答系统的研究还未见到。
相机传感器与激光雷达作为机器人与环境交互的主要两个传感器被广泛应用于各种机器人上。相机传感器是机器人感知外界环境的一个重要手段,现在被广泛用于机器人地图建立以及定位与导航。但是深度信息丢失限制了相机传感器的更广泛的应用,视觉信息的采集是通过三维到二维场景的投影变换与映射,在映射过程中深度信息会经常丢失,而且采用深度图深度信息不准确,存在很多高斯噪声。这导致了机器人在导航过程中无法获取周围环境的距离信息,从而引发碰撞,导航失败等问题。激光雷达虽然速度较慢,无法感知周边场景信息,但是它具有采集深度信息的能力,通过将激光雷达与视觉传感器数据融合的方式,不仅可以实现两者速度上的互补,场景感知能力上的互补,而且可以实现采集深度信息上的优势互补。
近几年来基于视觉感知环境中近年来由于深度学习的不断发展,深度学习技术被广泛用于视觉处理,语言交互,知识问答等领域。深度学习由于其提取特征能力强大,可拓展性强,学习能力强等优点被广泛应用,而卷积神经网络与循环神经网络作深度学习中主要的网络模型被广泛用于计算机视觉以及机器人领域,如图像特征提取,目标驱动导航,图像融合等。尽管他们在计算机视觉与导航方面取得了巨大的成就,但是在视觉与激光雷达信息融合并进行无地图导航方面并无很大的进展,利用上述信息进行导航并且知识问答方面的研究也很少。
发明内容
本发明的目的是提出一种机器人人机交互方法,打破传统在仿真环境中实现基于视觉的无地图导航知识问答系统的研究,将其应用到实际环境中,并且将相机传感器与激光雷达数据相融合,实现无地图导航与知识问答。
本发明提出的机器人人机交互方法,包括:
拍摄环境的RGB图像与深度图,并探测障碍物信息获取激光雷达数组,对获取数据进行归一化处理,构建人机交互中的问题编码网络将问题进行编码;构建图像特征提取网络,将RGB图像与深度图像信息提取成为一个特征矩阵,将激光雷达数据、问题编码和特征矩阵进行拼接得到特征融合矩阵;采用卷积网络获取数据融合矩阵作为周边环境的数据融合矩阵;训练一个循环神经网络作为导航器,将数据融合矩阵作为输入,输出为“前,左,右,停止”动作之一,控制机器人运动方向。
本发明提出的机器人人机交互方法,具有以下优点:
1、本发明的机器人人机交互方法,基于现实环境,设计了基于激光雷达和相机传感器数据融合的室内无地图导航问答系统,使得机器人在与人交流完成任务导航时不需要再建立地图,可以完成未知环境的导航以及问答。但是现有的技术由于在现实环境中由于光照,屋内杂乱,物体纹理不明显等原因,没有得到实现,主要是通过仿真环境,在仿真环境中进行无地图导航问答系统的模拟。
2、虽然无地图导航现在被广大科学家研究,但是这些研究基本上都是基于视觉传感器的,由于视觉传感器存在对视觉精度要求较高,深度信息在变换中缺失,深度图不精确存在噪声等问题,本发明设计了基于相机传感器与激光雷达数据融合的无地图导航人机交互方法,将相机传感器的信息与激光雷达信息相融合,解决了相机传感器深度信息丢失的问题,同时也解决了激光雷达速度较慢的问题,将两者优势互补,提高了导航精度。
3、本发明方法中,通过WiFi进行数据传输,实现了机器人自我导航,自我探索,人机交互等功能,提升机器人的智能性。无论在家居、服务还是探险救灾方面都有着很大的应用前景。
附图说明
图1为本发明方法涉及的硬件系统的结构框图。
图2为相机传感器与激光雷达数据融合网络示意图。
图3为本发明方法涉及的导航器网络示意图。
图4为人机交互网络结构示意图。
具体实施方式
本发明提出的机器人人机交互方法,包括:
拍摄环境的RGB图像与深度图,并探测障碍物信息获取激光雷达数组,对获取数据进行归一化处理,构建人机交互中的问题编码网络将问题进行编码;构建图像特征提取网络,将 RGB图像与深度图像信息提取成为一个特征矩阵,将激光雷达数据、问题编码和特征矩阵进行拼接得到特征融合矩阵;采用卷积网络获取数据融合矩阵作为周边环境的数据融合矩阵;训练一个循环神经网络作为导航器,将数据融合矩阵作为输入,输出为“前,左,右,停止”动作之一,控制机器人运动方向。
以下结合附图介绍本发明方法的一个实施例:
本发明方法涉及的硬件系统如图1所示。
(1)机器人用相机传感器拍摄环境的RGB图像与深度图,称为环境图像,环境图像为一个3*(w*h)图像,环境图像中含有3个图层,每一个图层的尺寸为(w*h),利用下式,对环境图像进行归一化处理:
式中,xi *代表归一化后环境图像中像素点的值,xi代表原环境图像中像素点的值,xmin代表像素点的最小值,xmax代表像素点的最大值;
(2)构建一个卷积神经网络,具体包括以下步骤:
设定卷积神经网络的第一层为卷积层,该卷积层的卷积核为5*5的矩阵,通道数为8;该卷积层的输入为步骤(1)的归一化处理后的环境图像;卷积神经网络的第二层为非线性激活层,非线性激活函数为relu函数,将卷积层的输出作为该层输入,增加网络的非线性。卷积神经网络的的第三层为数据归一化层,该层的输入为非线性激活层的输出,利用下式对输入进行归一化计算:
其中,为归一化层的输出,xv1 (k)为非线性激活层的输出,kv2为通道编号,即第kv2个通道的输出为xv1 (k),E(xv1 (k))为xv1 (k)的平均数,var[xv1 (k)]为xv1 (k)的方差。
卷积神经网络的第四层为最大池化网络,最大池化神经网络的卷积核为2*2的矩阵,卷积神经网络的第五层是卷积层,该卷积层的卷积核尺寸为5*5的矩阵,通道数为16,该卷积层的输入为特征提取网络第四层最大池化网络输出的结果。卷积神经网络的第六层为非线性激活层,非线性激活函数为relu函数,将卷积层的输出作为该层输入,增加网络的非线性。卷积神经网络的第七层为数据归一化层,该层的输入为卷积层的输出,利用下式对输入进行归一化计算:
编号,即第kv2个通道的输出为xv2 (k),E(xv2 (k))为xv2 (k)的平均数,var[xv2 (k)]为xv2 (k)的方差。卷积神经网络的第八层为最大池化网络,最大池化神经网络的卷积核为2*2的矩阵,卷积神经网络的第九层为卷积层,该卷积层的卷积核尺寸为5*5的矩阵,通道数为32,该卷积层的输入为最大池化网络输出的结果。卷积神经网络的第十层为非线性激活层,非线性激活函数采用relu函数,将卷积层的输出作为该层输入,增加网络的非线性。卷积神经网络的第十一层为数据归一化层,该层的输入为卷积层的输出,利用下式对输入进行归一化计算:
编号,即第kv3个通道的输出为xv3 (k),E(xv3 (k))为xv3 (k)的平均数,var[xv3 (k)]为xv3 (k)的方差。卷积神经网络的第十二层为最大池化网络,最大池化神经网络的卷积核为2*2的矩阵,卷积神经网络的第十三层是卷积层,该卷积层的卷积核为5*5矩阵,通道数为32,该卷积层的输入为最大池化网络输出的结果。卷积神经网络的第十层为非线性激活层,非线性激活函数为relu函数,将卷积层的输出作为该层输入,增加网络的非线性。卷积神经网络的第十一层为数据归一化层,该层的输入为卷积层的输出,利用下式对输入进行归一化计算:
其中,为归一化层的输出,xv4 (k)为非线性激活层的输出,kv4为通道编号,即第kv4个通道的输出为xv4 (k),E(xv4 (k))为xv4 (k)的平均数,var[xv4 (k)]为xv4 (k)的方差。
卷积神经网络的第十二层为最大池化网络,最大池化神经网络的卷积核为2*2的矩阵;
(3)利用上述步骤(2)的卷积神经网络,对步骤(1)的环境图像进行特征提取,得到环境特征融合矩阵L,包括以下步骤:
(3-1)将步骤(1)归一化处理后的环境图像输入到步骤(2)的卷积神经网络中,卷积神经网络输出RGB图像的特征矩阵M与深度图的特征矩阵G;
(3-2)将步骤(3-1)的特征矩阵M与特征矩阵G相加,得到融合矩阵K,将融合矩阵K进行矩阵变换,得到环境特征融合矩阵L,L为1*1*128的矩阵;
(4)机器人用激光雷达探测障碍物信息,记为障碍物数组Z,利用下式,对障碍物数组Z进行归一化处理得到归一化后的矩阵Zj:
式中,zj *代表归一化处理后障碍物数组的值,zj代表原障碍物数组的值,zmin代表障碍物数组的最小值,zmax代表障碍物数组的最大值;
对归一化后的矩阵Zj进行线性变换,得到障碍物特征矩阵N,N为1*1*64的矩阵;
(5)构建一个问题编码网络,具体包括以下步骤:
(5-1)设定问题编码网络的第一层为第一长短时记忆层,第一长短时记忆层的神经元个数是128个,问题编码网络的第二层为长短时记忆层,第二层为长短时记忆层的神经元个数是128个,得到一个问题编码网络;
(5-2)将人机交互问题中的单词进行编号;
(5-3)将步骤(5-2)的进行编号后的人机交互问题中的单词输入步骤(5-1)的问题编码网络,问题编码网络输出一个问题矩阵,对问题矩阵进行变换,得到问题特征矩阵 O,问题特征矩阵O为1*1*64的矩阵;
(6)对步骤(3)的环境特征融合矩阵L、步骤(4)的障碍物特征矩阵N和步骤(5) 的问题特征矩阵O,按照通道数进行矩阵拼接,得到特征融合矩阵P,特征融合矩阵P为 1*1*256的矩阵,;
(7)设计一个卷积网络,该卷积网络的卷积核为1*1的矩阵,卷积网络的通道数为64,将步骤(6)的特征融合矩阵P输入该卷积网络,卷积网络输出一个数据融合矩阵Q;数据融合矩阵Q;利用相机传感器与激光雷达数据得到数据融合矩阵Q的融合网络示意图如图2所示。
(8)建立一个循环神经网络,该循环神经网络的第一层为长短期记忆网络,长短期记忆网络中的神经元个数为64个,该循环神经网络的第二层为线性变换层,该循环神经网络的第三层为softmax分类层,softmax分类层的神经元个数为4个;循环神经网络最终输出为“前,左,右,停止”四个动作中的一个;
(9-1)利用步骤(7)数据融合矩阵Q对步骤(8)的循环神经网络进行训练,得到一个导航器,即向步骤(8)的循环神经网络输入数据融合矩阵Q,循环神经网络输出为“前,左,右,停止”四个动作,在循环神经网络训练中,利用损失函数,计算损失值Loss:
其中i为动作序号,为第i个输出动作,将第i个输出动作与输入数据融合矩阵Q中的相应动作进行比较,若输出动作与数据融合矩阵Q中的相应动作相同,则记yi为1,若输出动作与数据融合矩阵Q中的相应动作不相同,则记yi为0;
(9-2)设定损失值Loss的阈值,本发明的一个实施例中,损失值Loss的阈值为0.5,采用损失函数计算每一次训练的损失值,当损失值小于阈值时,完成导航器的训练;
(10)利用步骤(9-2)的导航器进行导航,导航器网络示意图如图3所示,导航器的表达式为:
at,ht←LSTM(ht-1,It 0,Q,at-1)
其中,t表示机器人走的步数,at表示机器人第t步的移动方向,ht表示第t步循环神经网络中长短期记忆网络的隐藏层输出,at-1表示上个步骤(9-1)的动作输出,ht-1表示上个步骤长短期记忆网络的隐藏状态,Q表示问题的编码,It 0表示第t步时步骤(7)的整个长短期记忆网络的数据融合输入,←表示导航器的输出方式;向该导航器输入步骤(5) 的问题编码、步骤(1)的RGB图像和深度图像以及步骤(8)的上一时刻长短期记忆层的隐藏状态,导航器输出前、左、右或停止导航四个指令中的一个,实现机器人的人机交互。
本发明方法涉及的整个系统如图1所示,由三个硬件组成,装有ROS框架的机器人,装有ROS框架的服务器,路由器。首先问机器人一个问题,机器人将通过第一人称视角进行探索周边环境。机器人通过第一人称视角探索环境的时候,将相机传感器的RGB图像与深度图以及激光雷达信息,通过发布话题,利用WiFi发布。服务器通过订阅RGB图像、深度图像、激光雷达的话题获取数据。通过数据融合并且利用导航模块将融合后的信息作为输入得到机器人下一步的运动规划并将其用话题发布。机器人通过订阅服务器发布的“cmd_vel”话题获取下一步的运动命令并且开始移动。最终到达目标区域,机器人停止移动,将第一人称视角的RGB信息通过话题发布,服务器订阅RGB话题并获取结束导航后的第一帧RGB图片进行编码,编码后的信息与问题编码作为问答模块的输入,经过长短期记忆网络的输出作为最终的答案。
为了可以更多的拓展整个系统,知识问答模块并没有局限于导航模块的环境,而是采用了MengyeRen等人提出的VIS+长短期记忆网络模型,由于问题的答案只有一个单词,所以该模型将整个问答模型看做一个分类问题,与现在的工作相符合并且对整体知识问答系统的提升很大。该知识问答模块即人机交互网络结构如图4所示,整个网络由三部分组成,知识问答环节图片利用MS-COCO数据集,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80类,有超过33万张图片,其中20万张有标注,整个数据集中个体的数目超过150万个。而问题的数据集则是采用了COCO-QA数据集,最大问题长度是55,平均是9.65。
Claims (2)
1.一种机器人人机交互方法,其特征在于该方法包括:
拍摄环境的RGB图像与深度图,并探测障碍物信息获取激光雷达数组,对获取数据进行归一化处理,构建人机交互中的问题编码网络将问题进行编码;构建图像特征提取网络,将RGB图像与深度图像信息提取成为一个特征矩阵,将激光雷达数据、问题编码和特征矩阵进行拼接得到特征融合矩阵;采用卷积网络获取数据融合矩阵作为周边环境的数据融合矩阵;训练一个循环神经网络作为导航器,将数据融合矩阵作为输入,输出为“前,左,右,停止”动作之一,控制机器人运动方向。
2.如权利要求1所述的机器人人机交互方法,其特征在于该方法包括以下步骤:
(1)拍摄环境的RGB图像与深度图,称为环境图像,环境图像为一个3*(w*h)图像,环境图像中含有3个图层,每一个图层的尺寸为(w*h),利用下式,对环境图像进行归一化处理:
式中,xi *代表归一化后环境图像中像素点的值,xi代表原环境图像中像素点的值,xmin代表像素点的最小值,xmax代表像素点的最大值;
(2)构建一个卷积神经网络,具体包括以下步骤:
设定卷积神经网络的第一层为卷积层,该卷积层的卷积核为5*5的矩阵,通道数为8;卷积神经网络的第二层为非线性激活层,非线性激活函数为relu函数,将卷积层的输出作为该层输入,增加网络的非线性,卷积神经网络的的第三层为数据归一化层,该层的输入为非线性激活层的输出;
(3)利用上述步骤(2)的卷积神经网络,对步骤(1)的环境图像进行特征提取,得到环境特征融合矩阵L,包括以下步骤:
(3-1)将步骤(1)归一化处理后的环境图像输入到步骤(2)的卷积神经网络中,卷积神经网络输出RGB图像的特征矩阵M与深度图的特征矩阵G;
(3-2)将步骤(3-1)的特征矩阵M与特征矩阵G相加,得到融合矩阵K,将融合矩阵K进行矩阵变换,得到环境特征融合矩阵L,L为1*1*128的矩阵;
(4)探测障碍物信息,记为障碍物数组Z,利用下式,对障碍物数组Z进行归一化处理得到归一化后的矩阵Zj:
式中,zj *代表归一化处理后障碍物数组的值,zj代表原障碍物数组的值,zmin代表障碍物数组的最小值,zmax代表障碍物数组的最大值;
对归一化后的矩阵Zj进行线性变换,得到障碍物特征矩阵N,N为1*1*64的矩阵;
(5)构建一个问题编码网络,具体包括以下步骤:
(5-1)设定问题编码网络的第一层为第一长短时记忆层,第一长短时记忆层的神经元个数是128个,问题编码网络的第二层为长短时记忆层,第二层为长短时记忆层的神经元个数是128个,得到一个问题编码网络;
(5-2)将人机交互问题中的单词进行编号;
(5-3)将步骤(5-2)的进行编号后的人机交互问题中的单词输入步骤(5-1)的问题编码网络,问题编码网络输出一个问题矩阵,对问题矩阵进行变换,得到问题特征矩阵O,问题特征矩阵O为1*1*64的矩阵;
(6)对步骤(3)的环境特征融合矩阵L、步骤(4)的障碍物特征矩阵N和步骤(5)的问题特征矩阵O,按照通道数进行矩阵拼接,得到特征融合矩阵P,特征融合矩阵P为1*1*256的矩阵;
(7)设计一个卷积网络,该卷积网络的卷积核为1*1的矩阵,卷积网络的通道数为64,将步骤(6)的特征融合矩阵P输入该卷积网络,卷积网络输出一个数据融合矩阵Q;
(8)建立一个循环神经网络,该循环神经网络的第一层为长短期记忆网络,长短期记忆网络中的神经元个数为64个,该循环神经网络的第二层为线性变换层,该循环神经网络的第三层为softmax分类层,softmax分类层的神经元个数为4个;循环神经网络最终输出为“前,左,右,停止”四个动作中的一个;
(9-1)利用步骤(7)数据融合矩阵Q对步骤(8)的循环神经网络进行训练,得到一个导航器,即向步骤(8)的循环神经网络输入数据融合矩阵Q,循环神经网络输出为“前,左,右,停止”四个动作,在循环神经网络训练中,利用损失函数,计算损失值Loss:
其中i为动作序号,为第i个输出动作,将第i个输出动作与输入数据融合矩阵Q中的相应动作进行比较,若输出动作与数据融合矩阵Q中的相应动作相同,则记yi为1,若输出动作与数据融合矩阵Q中的相应动作不相同,则记yi为0;
(9-2)设定损失值Loss的阈值,本发明的一个实施例中,损失值Loss的阈值为0.5,采用损失函数计算每一次训练的损失值,当损失值小于阈值时,完成导航器的训练;
(10)利用步骤(9-2)的导航器进行导航,导航器的表达式为:
at,ht←LSTM(ht-1,It 0,Q,at-1)
其中,t表示机器人走的步数,at表示机器人第t步的移动方向,ht表示第t步循环神经网络中长短期记忆网络的隐藏层输出,at-1表示上个步骤(9-1)的动作输出,ht-1表示上个步骤长短期记忆网络的隐藏状态,Q表示问题的编码,It 0表示第t步时步骤(7)的整个长短期记忆网络的数据融合输入,←表示导航器的输出方式;
向该导航器输入步骤(5)的问题编码、步骤(1)的RGB图像和深度图像以及步骤(8)的上一时刻长短期记忆层的隐藏状态,导航器输出前、左、右或停止导航四个指令中的一个,实现机器人的人机交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206075.5A CN112873211B (zh) | 2021-02-24 | 2021-02-24 | 一种机器人人机交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206075.5A CN112873211B (zh) | 2021-02-24 | 2021-02-24 | 一种机器人人机交互方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112873211A true CN112873211A (zh) | 2021-06-01 |
CN112873211B CN112873211B (zh) | 2022-03-11 |
Family
ID=76054322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110206075.5A Active CN112873211B (zh) | 2021-02-24 | 2021-02-24 | 一种机器人人机交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112873211B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536945A (zh) * | 2021-06-21 | 2021-10-22 | 清华大学 | 一种面向盲人的物体寻找系统及方法 |
CN113959446A (zh) * | 2021-10-20 | 2022-01-21 | 苏州大学 | 一种基于神经网络的机器人自主物流运输导航方法 |
CN115164925A (zh) * | 2022-07-09 | 2022-10-11 | 哈尔滨工程大学 | 一种基于大数据的数字环境构建规划导航方法 |
CN116913532A (zh) * | 2023-09-12 | 2023-10-20 | 四川互慧软件有限公司 | 一种临床路径推荐方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150168954A1 (en) * | 2005-10-21 | 2015-06-18 | Irobot Corporation | Methods and systems for obstacle detection using structured light |
CN110851760A (zh) * | 2019-11-12 | 2020-02-28 | 电子科技大学 | 在web3D环境融入视觉问答的人机交互系统 |
CN110842940A (zh) * | 2019-11-19 | 2020-02-28 | 广东博智林机器人有限公司 | 一种建筑测量机器人多传感器融合三维建模方法及系统 |
KR20200036678A (ko) * | 2018-09-20 | 2020-04-07 | 삼성전자주식회사 | 청소 로봇 및 그의 태스크 수행 방법 |
CN111141300A (zh) * | 2019-12-18 | 2020-05-12 | 南京理工大学 | 基于深度强化学习的智能移动平台无地图自主导航方法 |
CN111179426A (zh) * | 2019-12-23 | 2020-05-19 | 南京理工大学 | 基于深度学习的机器人室内环境三维语义地图构建方法 |
CN111413970A (zh) * | 2020-03-18 | 2020-07-14 | 天津大学 | 超宽带与视觉融合的室内机器人定位与自主导航方法 |
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
CN111652273A (zh) * | 2020-04-27 | 2020-09-11 | 西安工程大学 | 一种基于深度学习的rgb-d图像分类方法 |
-
2021
- 2021-02-24 CN CN202110206075.5A patent/CN112873211B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150168954A1 (en) * | 2005-10-21 | 2015-06-18 | Irobot Corporation | Methods and systems for obstacle detection using structured light |
KR20200036678A (ko) * | 2018-09-20 | 2020-04-07 | 삼성전자주식회사 | 청소 로봇 및 그의 태스크 수행 방법 |
CN110851760A (zh) * | 2019-11-12 | 2020-02-28 | 电子科技大学 | 在web3D环境融入视觉问答的人机交互系统 |
CN110842940A (zh) * | 2019-11-19 | 2020-02-28 | 广东博智林机器人有限公司 | 一种建筑测量机器人多传感器融合三维建模方法及系统 |
CN111141300A (zh) * | 2019-12-18 | 2020-05-12 | 南京理工大学 | 基于深度强化学习的智能移动平台无地图自主导航方法 |
CN111179426A (zh) * | 2019-12-23 | 2020-05-19 | 南京理工大学 | 基于深度学习的机器人室内环境三维语义地图构建方法 |
CN111413970A (zh) * | 2020-03-18 | 2020-07-14 | 天津大学 | 超宽带与视觉融合的室内机器人定位与自主导航方法 |
CN111652273A (zh) * | 2020-04-27 | 2020-09-11 | 西安工程大学 | 一种基于深度学习的rgb-d图像分类方法 |
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
CHEN YUE,TIAN SHUHAO,ZHAO HUAILIN,LU SHENGYANG: "The Optimized Intelligent Algorithms on Face Recognition and Tracking for ROS-based Robots", 《THE 2021 INTERNATIONAL CONFERENCE ON ARTIFICIAL LIFE AND ROBOTICS (ICAROB 2021)》 * |
林义闽: "未知环境中智能机器人的视觉导航技术研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113536945A (zh) * | 2021-06-21 | 2021-10-22 | 清华大学 | 一种面向盲人的物体寻找系统及方法 |
CN113536945B (zh) * | 2021-06-21 | 2024-04-12 | 清华大学 | 一种面向盲人的物体寻找系统及方法 |
CN113959446A (zh) * | 2021-10-20 | 2022-01-21 | 苏州大学 | 一种基于神经网络的机器人自主物流运输导航方法 |
CN113959446B (zh) * | 2021-10-20 | 2024-01-23 | 苏州大学 | 一种基于神经网络的机器人自主物流运输导航方法 |
CN115164925A (zh) * | 2022-07-09 | 2022-10-11 | 哈尔滨工程大学 | 一种基于大数据的数字环境构建规划导航方法 |
CN116913532A (zh) * | 2023-09-12 | 2023-10-20 | 四川互慧软件有限公司 | 一种临床路径推荐方法 |
CN116913532B (zh) * | 2023-09-12 | 2023-12-08 | 四川互慧软件有限公司 | 一种临床路径推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112873211B (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112873211B (zh) | 一种机器人人机交互方法 | |
US11720110B2 (en) | Dynamic obstacle avoidance method based on real-time local grid map construction | |
Chen et al. | Milestones in autonomous driving and intelligent vehicles—part ii: Perception and planning | |
JP7439153B2 (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
CN112365604A (zh) | 基于语义分割和slam的ar设备景深信息应用方法 | |
CN111462324A (zh) | 一种在线时空语义融合方法和系统 | |
CN114821536A (zh) | 一种改进yolov5的无人驾驶拖拉机田间障碍物识别方法 | |
Sales et al. | Vision-based autonomous navigation system using ann and fsm control | |
CN115311538A (zh) | 一种基于场景先验的智能体目标搜索的方法 | |
CN113506377A (zh) | 一种基于虚拟漫游技术的教学培训方法 | |
CN116595871A (zh) | 基于动态时空交互图的车辆轨迹预测建模方法与装置 | |
Li et al. | Simultaneous kinematic calibration, localization, and mapping (SKCLAM) for industrial robot manipulators | |
Chen et al. | Design and Implementation of AMR Robot Based on RGBD, VSLAM and SLAM | |
CN111611869B (zh) | 一种基于串行深度神经网络的端到端单目视觉避障方法 | |
CN113158756A (zh) | 基于HRNet深度学习的姿态、行为分析模块及分析方法 | |
CN117760444A (zh) | 一种视觉与多线激光融合的移动机器人导航系统 | |
Zhou et al. | Obstacle detection for unmanned surface vehicles by fusion refinement network | |
CN114943762B (zh) | 一种基于事件相机的双目视觉里程计方法 | |
Noguchi et al. | Navigation behavior based on self-organized spatial representation in hierarchical recurrent neural network | |
Tan et al. | A Review of Deep Learning-Based LiDAR and Camera Extrinsic Calibration | |
Ruan et al. | A semantic octomap mapping method based on cbam-pspnet | |
Juang | Humanoid robot runs maze mode using depth-first traversal algorithm | |
Guo et al. | Object goal visual navigation using semantic spatial relationships | |
Nakashima et al. | Learning geometric and photometric features from panoramic LiDAR scans for outdoor place categorization | |
Jebur et al. | Safe navigation and target recognition for a mobile robot using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |