CN114910071A - 一种基于物体偏见修正与有向注意力图的物体导航方法 - Google Patents
一种基于物体偏见修正与有向注意力图的物体导航方法 Download PDFInfo
- Publication number
- CN114910071A CN114910071A CN202210385355.1A CN202210385355A CN114910071A CN 114910071 A CN114910071 A CN 114910071A CN 202210385355 A CN202210385355 A CN 202210385355A CN 114910071 A CN114910071 A CN 114910071A
- Authority
- CN
- China
- Prior art keywords
- attention
- features
- action
- global image
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012937 correction Methods 0.000 title claims abstract description 17
- 230000009471 action Effects 0.000 claims abstract description 43
- 238000010586 diagram Methods 0.000 claims abstract description 30
- 230000003044 adaptive effect Effects 0.000 claims abstract description 26
- 230000000007 visual effect Effects 0.000 claims abstract description 20
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 230000002776 aggregation Effects 0.000 claims abstract description 7
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000000750 progressive effect Effects 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims description 2
- 230000004931 aggregating effect Effects 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract 1
- 238000005728 strengthening Methods 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 18
- 238000012549 training Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
- G01C21/206—Instruments for performing navigational calculations specially adapted for indoor navigation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及一种基于物体偏见修正与有向注意力图的物体导航方法,包括以下步骤:S1、机器人实时获取当前时刻的原始图像;S2、提取视觉输入的全局图像特征It和局部物体特征St;S3、通过多头注意力分数生成模块得到自适应物体注意力图Gv;S4、得到当前时刻的物体注意力权重Gt;S5、得到物体支路最终编码S6、通过多头注意力得到图像支路最终编码S7、对图像、物体和过去动作三个支路进行聚合得到特征表示Ht;S8、预测动作执行概率;S9、加强检测到目标物体时输出停止动作的概率;S10、选择概率最大的动作对场景进行探索。与现有技术相比,本发明具有解决注意力偏见问题、加强信息融合利用、更好区分支路类型、提高支路特征聚合合理性等优点。
Description
技术领域
本发明涉及机器人视觉语义导航领域,尤其是涉及一种基于物体偏见修正与有向注意力图的物体导航方法。
背景技术
在物体导航任务中,智能代理(机器人)根据第一人称视觉观察(通常是由其机载摄像机捕捉的RGB图像)在室内环境中导航到用户指定的目标,这是实现人工智能目标的一个基本而完整的任务,它要求智能机器人能够理解其视觉输入,推断其当前位置,推理目标位置,规划轨迹,并在每一步执行一个动作。物体导航领域的发展也促生了如视觉问答(要求机器人导航到指定物体前并回答问题)、视觉语言导航(要求机器人根据指导者的指令在室内环境进行导航)等领域的蓬勃发展,因此物体导航引起了越来越多的研究者们的关注,并促生出大量试图解决这一问题的工作。
经典的基于地图的视觉导航方法已经被研究了很多年,这些方法明确地将导航任务分解为一组子任务,即建图、定位、规划和运动控制,尽管这些方法在近年来取得了相当大的成功,但模块化的设计存在着其根本的局限性,阻碍了他们广泛的应用。一个重要的限制是它们容易受到传感器噪声的影响,这些噪声从建图到运动控制的整个过程中不断累计和传播,这使得这些方法在复杂环境中不那么鲁棒,更重要的是它们需要大量的场景探索和手工操作,这使得它们很难与其他下游人工智能任务集成,如视觉识别,问题回答和场景字幕等。
观察到基于学习的方法最近在相关任务中的成功,已经有大量的工作将学习方法应用到了物体导航任务中,基于学习的方法通常将视觉输入和用户指定的目标与在每个时间戳上的最佳操作作为智能代理的输入和输出。与传统方法不同,基于学习的方法直接从数据中推断出解决方案,因此不需要太多的手工工程,并作为新型人工智能驱动的视觉导航任务的基础,但是基于学习的物体导航方法也面临着一个至关重要的问题:如何有效的表示视觉输入,从而推理出当前观察与目标之间的联系。
为了解决这一问题,越来越多的研究者开始利用目标检测等方法提取智能代理视野中的高阶信息,试图利用高阶语义信息更好的指导机器人的运动。SP模型首先提出了利用图网络对于场景中物体相关的先验知识进行学习;MJOLNIR模型在SP模型的基础上将被检测到物体的位置和语义信息整合到图卷积网络中;ORG模型合理的利用物体视觉特征、语义特征和空间特征关系提高了物体特征运用的自适应性;CKR模型利用交叉模式知识推理将外部知识图谱信息应用到智能代理的导航中;HOZ模型从场景整体出发,提出了物体区域图,将场景整合成分层式的图结构。
如今基于高阶语义的物体导航仍在蓬勃发展,但是需要研究者们从实际问题出发,找到物体导航方法从数据集到现实世界的困难,真正的将物体导航方法应用到物理世界中。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于物体偏见修正与有向注意力图的物体导航方法。
本发明的目的可以通过以下技术方案来实现:
一种基于物体偏见修正与有向注意力图的物体导航方法,包括以下步骤:
S1、在物体导航过程中,机器人实时获取当前时刻的原始图像作为视觉输入;
S2、通过ResNet18提取视觉输入的全局图像特征It,并且通过Faster RCNN提取视觉输入的局部物体特征St;
S3、以全局图像特征It作为查询,局部物体特征St作为键值,通过多头注意力分数生成模块得到自适应物体注意力图Cv;
S4、将自适应物体注意力图Cv与固定的物体注意力图加权相加得到当前时刻的物体注意力权重Gt;
S7、对图像、物体和过去动作三个支路进行能量重新分配再聚合得到特征表示Ht;
S8、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率;
S9、加强检测到目标物体时输出停止动作的概率;
S10、机器人选择概率最大的动作对场景进行探索。
所述的步骤S3具体包括以下步骤:
其中,M为特征图中的像素数量,p表示目标物体,OIp为物体索引编码特征OI中目标物体p的索引编码,Concat表示将两个向量拼接成一个;
其中,NH和HD分别为多头注意力分数生成器的头数和隐藏维度, 均为可学习的维度映射参数,和分别将包含目标物体信息的全局图像特征和滤波后的局部物体特征映射到的同一维度HD,将各个头计算出来的子图聚合为一个自适应的物体注意力图Gv。
所述的步骤S4具体为:
其中,ωn与ωv均为可学习的权重。
所述的步骤S5具体为:
为平衡计算量与信息完整性使用两层带有ReLU非线性的全连接层对局部物体特征St进行降维得到降维后的物体特征St′,采用无偏见的物体注意力权重Gt对降维后的物体特征St′中每个物体q的特征进行加权得到物体支路最终编码则有:
所述的步骤S6具体包括以下步骤:
S61、利用无偏物体注意力权重Gt对物体索引编码特征OI进性加权聚合,得到加权后的物体语义表示D,则有:
S62、将一维的像素索引编码PI引入到全局图像特征中,则有:
I′t=δ(δ(ItW1)W2)+PI
其中,I′t为拥有像素位置标识的全局图像特征,δ表示ReLU非线性激活函数,W1和W2为可学习的维度映射参数;
所述的步骤S7具体为:
其中,Fpw表示逐点卷积。
所述的步骤S8具体为:
采用两层的全连接层对特征表示Ht进行精炼作为LSTM网络的输入,经过LSTM网络学习到机器人在探索环境过程中的时序关系,从而输出综合过去动作与当前环境的动作概率向量,所述的动作包括直走、左转、右转、抬头、低头和停止,若机器人输出停止动作,则表示机器人已经找到了物体并导航到了物体的位置。
所述的置信度滤波的阈值为0.6.
所述的步骤S9中,当机器人检测到目标物体时,使用目标检测置信度乘以固定系数再乘上概率向量中停止动作的概率,实现对停止动作触发的显式增强。
与现有技术相比,本发明具有以下优点:
一、本发明提出了一种有向物体注意力图表示,有效解决了智能代理在物体导航中出现的物体注意力偏见问题,并且让神经网络对物体之间的内在关系有了更加清晰的认识。
二、本发明以有向物体注意力图为基础,设计了全局图像支路和局部物体支路的交叉注意力,即无偏的图像注意力和无偏的物体注意力,这种交叉注意力方法增强了全局图像特征和物体特征注意力分配的合理性。
三、本发明设计了一种几乎不需要额外增加计算量的自适应能量分配支路特征聚合方法,该方法有效增强了网路对于不同支路的区分度,并改善了聚合后特征表示的数据分布。
四、本发明在AI2-Thor数据集上进行了实验,在SR、SPL、SAE指标上相比于最先进的方法分别提高了7.4%、8.1%和17.6%。
附图说明
图1为本发明方法的流程图。
图2为本发明方法的有向物体注意力图计算过程。
图3为本发明方法学习到的固定注意力图的邻接矩阵。
图4为本发明方法学习到的自适应注意力图的邻接矩阵。
图5为本发明方法训练过程中在训练集和测试集上成功率指标SR的变化,其中,图(5a)为训练集上成功率指标SR的变化,图(5b)为测试集上成功率指标SR的变化。
图6为本发明方法与过去方法在AI2-Thor模拟环境中指导智能代理寻找物体的路线对比。
图7为AI2-Thor数据集中的四个场景及每个场景中包含的物体。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于物体偏见修正与有向注意力图的物体导航方法,该方法利用物体有向注意力图解决机器人物体导航过程中的物体注意力偏见问题的方法,根据物体间无偏见的关系对物体注意力进行了合理的分配,并在AI2-Thor数据集的实验中获得了最先进的结果,具体包括以下步骤:
S1、提出了机器人在进行未知环境中纯视觉的物体导航时存在的物体注意力偏见问题;
步骤S1中物体注意力偏见问题由两方面原因导致:
(1)内源性原因:网络自身对具有更加丰富视觉特征对象的偏好。
(2)外源性原因,数据集中每个对象可以检测到的频率的差异性。
本方法主要从内源性因素入手,不改变数据集中的对象数量。
S2、利用ResNet18和Faster RCNN提取视觉输入的全局图像信息和局部物体信息;
S3、以全局图像信息作为查询,局部物体信息作为键值,通过多头注意力分数生成模块得到自适应物体注意力图;
在完成滤波后,首先通过独热编码和两层的全连接层得到物体索引编码特征OI,因为寻找不同目标时需要有不同的注意力分配策略,所以对全局图像特征It进行全局平均池化后与目标索引编码OIp拼接得到拼接后的全局图像特征则有:
其中,M表示特征图中的像素数量,p表示目标物体,OIp表示OI中第p个物体(目标物体)的索引编码,Concat表示将两个向量拼接成一个。
S4、将自适应物体注意力图与固定的物体注意力图加权相加得到当前时刻的物体注意力权重;
其中,ωn与ωv都是可学习的权重。
S5、利用物体注意力权重对物体局部信息进行加权得到物体支路最终编码;
步骤S5中,为了平衡计算量与信息完整性使用两层带有ReLU非线性的全连接层对局部物体特征St进行降维得到降维后的物体特征St′,利用步骤S4中计算出来的无偏见的物体注意力权重Gt对降维后的物体特征St′中每个物体q的特征进行加权,则有:
S6、利用经过物体注意力权重加权后的物体语义作为查询,全局的图像信息作为键值,通过多头注意力得到图像支路最终编码;
步骤S6中,首先利用无偏物体注意力权重Gt对物体索引编码特征OI进行加权聚合,得到加权后的物体语义表示D,则有:
然后将一维的像素索引编码PI引入到全局图像特征中:
I′t=δ(δ(ItW1)W2)+PI
其中,δ指代ReLU非线性激活,W1和W2为可学习的维度映射参数,用以将全局图像特征降维,PI为全局图像特征的每个像素提供了位置标识。
S7、对图像、物体和过去动作三个支路进行能量重新分配再聚合;
其中,Fpw指代逐点卷积,降低特征维度。
S8、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率;
S9、利用停止动作提醒模块加强检测到目标物体时输出停止动作的概率;
步骤S9中,当智能代理检测到目标物体时,使用目标检测置信度乘以固定的系数再乘上概率向量中停止动作的概率,实现对停止动作触发的显式增强。
S10、机器人选择概率最大的动作对场景进行探索。
实施例
本实施例提供了一种基于物体偏见修正与有向注意力图的物体导航方法,该方法的框架示意图如图1所示,具体包括以下步骤:
S1、利用ResNet18和Faster RCNN提取视觉输入的全局图像信息和局部物体信息;
S2、以全局图像信息作为查询,局部物体信息作为键值,通过多头注意力分数生成模块得到自适应物体注意力图;
S3、将自适应物体注意力图与固定的物体注意力图加权相加得到当前时刻的物体注意力权重;
S4、利用物体注意力权重对物体局部信息进行加权得到物体支路最终编码;
S5、利用经过物体注意力权重加权后的物体索引编码特征作为查询,全局的图像信息作为键值,通过多头注意力得到图像支路最终编码;
S6、对图像、物体和过去动作三个支路进行能量重新分配再聚合;
S7、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率;
S8、利用停止动作提醒模块加强检测到目标物体时输出停止动作的概率。
S9、机器人选择概率最大的动作对场景进行探索。
在步骤S1,智能代理首先通过向前拍摄的摄像头读取当前场景的主视角图片,再将图片数据转换成在python中便于处理的numpy格式,为了输入用pytorch搭建的神经网络,再将numpy格式的图像数据转换成pytorch中的tensor格式。
在训练模型的时候,将场景中智能代理所处的所有可能状态时捕获到的主视角图片提出出来,并分别用预训练过的ResNet18和Faster RCNN提取全局图像信息和局部物体信息,将每个场景中的上述两种特征储存成HDF5格式文件,这样在训练时智能代理只需要读取HDF5文件获得当前状态的全局图像与局部物体特征,不需要智能代理不断的与环境交互从而耗费大量的时间。
在步骤S2,图2展示了计算物体注意力图的详细过程。物体特征需要经过一个置信度滤波剔除置信度较低的物体带来的噪声,而经过实验探究,置信度滤波的最佳阈值为0.6,全局图像特征在全局平均池化后需要与目标物体的索引编码拼接。这里使用拼接向量的方法而不是特征相加是因为图像特征的维度(512)和目标索引编码的维度(64)相差较大,所以使用拼接的方法能更好的利用特性信息。多头注意力分数生成模块本质上是计算每一个局部物体特征嵌入与全局图像特征嵌入的相似性,从而得到每个物体根据不同可视图片而变化的重要性权重。
在步骤S3,固定的物体注意力图是由可学习的N×N矩阵表示的,其在训练的过程中不断学习物体之间的本质关系,在测试使用时就不会改变。所以理论上,训练的场景越全面越真实,那么固定的物体注意力图就越合理,图3和图4分别可视化了固定的物体注意力图和自适应物体注意力图的邻接矩阵,可以发现固定的物体注意力图中自连接边的权重最大,即对目标物体的注意力最强,图4中的自适应物体注意力图的邻接矩阵每一列代表在寻找这类物体时随机抽取一帧时的自适应物体注意力。可以发现自适应物体注意力一般集中在一个物体上,这是因为每一时刻视野中物体相对于所有物体是十分稀疏的,这种稀疏性导致了注意力对于最重要物体的极致倾斜。但是由于使用的是固定注意力图与自适应注意力图加权平均的方式,而神经网络学习到的分配给固定注意力图的权重为0.96,分配给自适应注意力图的权重为0.04。所以自适应注意力的注意力集中现象并不会导致整体物体注意力的极端,反而会起到加强重要物体权重的良好效果。
在步骤S4,为了平衡网络后续的计算量和特征的信息丰富度,利用带有ReLU非线性的全连接层对局部物体特征进行了降维,从518维降低到了64维,再对每个物体特征乘以对应的物体注意力权重得到最终的物体特征输出。
在步骤S5,全局图像特征需要对每个像素添加位置编码,在本方法中运用的是1D位置编码方式,这是因为全局图像特征图的大小只有7×7,所以只使用1D编码也可以学习出二维的位置信息,所以没有必要使用2D或者相对位置编码了。物体语义信息在经过注意力分配后也需要通过置信度滤波去除噪声,这里选择的置信度阈值与步骤S2中的一样也为0.6。
在步骤S6,每一个支路都有一个可学习的参数对支路特征进行数据分布的调整,所有的支路以拼接的方式连接,注意在拼接成一个特征向量后还需要经过两层的全连接层对信息进行精炼,才能输入LSTM网络。
在步骤S7,精炼后特征经过LSTM网络会学习到智能代理在探索环境过程中的时序关系,从而输出综合了之前动作和环境的动作概率向量,动作一共有6种:直走、左转、右转、抬头、低头、停止,如果智能代理输出停止动作,则表示其认为已经找到了物体并导航到了物体的位置。
在步骤S8,由于此任务的目标是找到目标物体,所以当智能代理检测到视野中的目标物体时,会根据检测到目标物体的置信度增强结束动作的概率。
在步骤S9,机器人会采取动作概率向量中概率最大的动作进行下一步的场景探索。
本发明提出了一种有向物体注意力图方法有效解决了物体导航过程中的物体注意力偏见问题。并基于物体注意力图,提出了无偏的自适应物体注意力与自适应图像注意力这两个交叉注意力策略,他们让神经网络对于物体特征和图像特征注意力进行了合理的分配。不仅如此,还提出了自适应能量分配方法对支路特征的聚合进行了优化。在AI2-Thor数据集上进行了实验,图7展示了数据集中的场景和物体。图5中,可以看到我们的方法在强化学习训练过程中,在训练集和测试集上的成功率曲线都平稳收敛。图6展示了方法在AI2-Thor模拟环境中指导智能代理导航的实际效果。可以发现,旋转的方向和旋转变直走的时机对于导航的成功与否是十分重要的。而这两个决策主要由视野中包含多个物体的关键帧时,智能代理对于场景的理解决定。基于有向物体注意力图的方法能够为智能代理提供更加合理和无偏见的注意力分配,因此能够指导其在关键帧的时候做出正确的决策。本方法在SR、SPL和SAE指标方面比HOZ等先进方法提升了7.4%、8.1%和17.6%。无论是对方法效果的提升还是对未来研究的指导作用方面,本方法都有着独特的优势。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,包括以下步骤:
S1、在物体导航过程中,机器人实时获取当前时刻的原始图像作为视觉输入;
S2、通过ResNet18提取视觉输入的全局图像特征It,并且通过Faster RCNN提取视觉输入的局部物体特征St;
S3、以全局图像特征It作为查询,局部物体特征St作为键值,通过多头注意力分数生成模块得到自适应物体注意力图Gv;
S4、将自适应物体注意力图Gv与固定的物体注意力图加权相加得到当前时刻的物体注意力权重Gt;
S7、对图像、物体和过去动作三个支路进行能量重新分配再聚合得到特征表示Ht;
S8、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率;
S9、加强检测到目标物体时输出停止动作的概率;
S10、机器人选择概率最大的动作对场景进行探索。
3.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S3具体包括以下步骤:
其中,M为特征图中的像素数量,p表示目标物体,OIp为物体索引编码特征OI中目标物体p的索引编码,Concat表示将两个向量拼接成一个;
6.根据权利要求5所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S6具体包括以下步骤:
S61、利用无偏物体注意力权重Gt对物体索引编码特征OI进性加权聚合,得到加权后的物体语义表示D,则有:
S62、将一维的像素索引编码PI引入到全局图像特征中,则有:
I′t=δ(δ(ItW1)W2)+PI
其中,I′t为拥有像素位置标识的全局图像特征,δ表示ReLU非线性激活函数,W1和W2为可学习的维度映射参数;
8.根据权利要求7所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S8具体为:
采用两层的全连接层对特征表示Ht进行精炼作为LSTM网络的输入,经过LSTM网络学习到机器人在探索环境过程中的时序关系,从而输出综合过去动作与当前环境的动作概率向量,所述的动作包括直走、左转、右转、抬头、低头和停止,若机器人输出停止动作,则表示机器人已经找到了物体并导航到了物体的位置。
9.根据权利要求3或6所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的置信度滤波的阈值为0.6。
10.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S9中,当机器人检测到目标物体时,使用目标检测置信度乘以固定系数再乘上概率向量中停止动作的概率,实现对停止动作触发的显式增强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210385355.1A CN114910071A (zh) | 2022-04-13 | 2022-04-13 | 一种基于物体偏见修正与有向注意力图的物体导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210385355.1A CN114910071A (zh) | 2022-04-13 | 2022-04-13 | 一种基于物体偏见修正与有向注意力图的物体导航方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114910071A true CN114910071A (zh) | 2022-08-16 |
Family
ID=82765011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210385355.1A Pending CN114910071A (zh) | 2022-04-13 | 2022-04-13 | 一种基于物体偏见修正与有向注意力图的物体导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114910071A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984966A (zh) * | 2023-01-03 | 2023-04-18 | 西南交通大学 | 一种基于特征精炼与多视图的人物物交互动作检测方法 |
-
2022
- 2022-04-13 CN CN202210385355.1A patent/CN114910071A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984966A (zh) * | 2023-01-03 | 2023-04-18 | 西南交通大学 | 一种基于特征精炼与多视图的人物物交互动作检测方法 |
CN115984966B (zh) * | 2023-01-03 | 2023-10-13 | 西南交通大学 | 一种基于特征精炼与多视图的人物物交互动作检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276765B (zh) | 基于多任务学习深度神经网络的图像全景分割方法 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
Wang et al. | Actionness estimation using hybrid fully convolutional networks | |
CN107403426B (zh) | 一种目标物体检测方法及设备 | |
KR20190113119A (ko) | 합성곱 신경망을 위한 주의집중 값 계산 방법 | |
CN110765854B (zh) | 一种视频动作识别方法 | |
CN112668366B (zh) | 图像识别方法、装置、计算机可读存储介质及芯片 | |
CN107909008A (zh) | 基于多通道卷积神经网络和粒子滤波的视频目标跟踪方法 | |
Mordan et al. | Detecting 32 pedestrian attributes for autonomous vehicles | |
CN112121419B (zh) | 虚拟对象控制方法、装置、电子设备以及存储介质 | |
CN111462191A (zh) | 一种基于深度学习的非局部滤波器无监督光流估计方法 | |
Jiang et al. | An efficient attention module for 3d convolutional neural networks in action recognition | |
Farhadi et al. | TKD: Temporal knowledge distillation for active perception | |
CN113705384A (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 | |
CN114910071A (zh) | 一种基于物体偏见修正与有向注意力图的物体导航方法 | |
CN118397465A (zh) | 一种基于多维特征聚合增强与分发机制的遥感小目标检测方法 | |
CN118097228A (zh) | 基于多教师辅助实例自适应dnn的移动平台多目标分类方法 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN113221683A (zh) | 教学场景下基于cnn模型的表情识别方法 | |
CN117437467A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
CN115100740B (zh) | 一种人体动作识别和意图理解方法、终端设备及存储介质 | |
CN116452472A (zh) | 基于语义知识引导的低照度图像增强方法 | |
CN116597419A (zh) | 一种基于参数化互近邻的车辆限高场景识别方法 | |
CN114841887B (zh) | 一种基于多层次差异学习的图像恢复质量评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |