CN114910071A - 一种基于物体偏见修正与有向注意力图的物体导航方法 - Google Patents

一种基于物体偏见修正与有向注意力图的物体导航方法 Download PDF

Info

Publication number
CN114910071A
CN114910071A CN202210385355.1A CN202210385355A CN114910071A CN 114910071 A CN114910071 A CN 114910071A CN 202210385355 A CN202210385355 A CN 202210385355A CN 114910071 A CN114910071 A CN 114910071A
Authority
CN
China
Prior art keywords
attention
features
action
global image
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210385355.1A
Other languages
English (en)
Inventor
陈启军
党荣浩
刘成菊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210385355.1A priority Critical patent/CN114910071A/zh
Publication of CN114910071A publication Critical patent/CN114910071A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于物体偏见修正与有向注意力图的物体导航方法,包括以下步骤:S1、机器人实时获取当前时刻的原始图像;S2、提取视觉输入的全局图像特征It和局部物体特征St;S3、通过多头注意力分数生成模块得到自适应物体注意力图Gv;S4、得到当前时刻的物体注意力权重Gt;S5、得到物体支路最终编码
Figure DDA0003593419990000011
S6、通过多头注意力得到图像支路最终编码
Figure DDA0003593419990000012
S7、对图像、物体和过去动作三个支路进行聚合得到特征表示Ht;S8、预测动作执行概率;S9、加强检测到目标物体时输出停止动作的概率;S10、选择概率最大的动作对场景进行探索。与现有技术相比,本发明具有解决注意力偏见问题、加强信息融合利用、更好区分支路类型、提高支路特征聚合合理性等优点。

Description

一种基于物体偏见修正与有向注意力图的物体导航方法
技术领域
本发明涉及机器人视觉语义导航领域,尤其是涉及一种基于物体偏见修正与有向注意力图的物体导航方法。
背景技术
在物体导航任务中,智能代理(机器人)根据第一人称视觉观察(通常是由其机载摄像机捕捉的RGB图像)在室内环境中导航到用户指定的目标,这是实现人工智能目标的一个基本而完整的任务,它要求智能机器人能够理解其视觉输入,推断其当前位置,推理目标位置,规划轨迹,并在每一步执行一个动作。物体导航领域的发展也促生了如视觉问答(要求机器人导航到指定物体前并回答问题)、视觉语言导航(要求机器人根据指导者的指令在室内环境进行导航)等领域的蓬勃发展,因此物体导航引起了越来越多的研究者们的关注,并促生出大量试图解决这一问题的工作。
经典的基于地图的视觉导航方法已经被研究了很多年,这些方法明确地将导航任务分解为一组子任务,即建图、定位、规划和运动控制,尽管这些方法在近年来取得了相当大的成功,但模块化的设计存在着其根本的局限性,阻碍了他们广泛的应用。一个重要的限制是它们容易受到传感器噪声的影响,这些噪声从建图到运动控制的整个过程中不断累计和传播,这使得这些方法在复杂环境中不那么鲁棒,更重要的是它们需要大量的场景探索和手工操作,这使得它们很难与其他下游人工智能任务集成,如视觉识别,问题回答和场景字幕等。
观察到基于学习的方法最近在相关任务中的成功,已经有大量的工作将学习方法应用到了物体导航任务中,基于学习的方法通常将视觉输入和用户指定的目标与在每个时间戳上的最佳操作作为智能代理的输入和输出。与传统方法不同,基于学习的方法直接从数据中推断出解决方案,因此不需要太多的手工工程,并作为新型人工智能驱动的视觉导航任务的基础,但是基于学习的物体导航方法也面临着一个至关重要的问题:如何有效的表示视觉输入,从而推理出当前观察与目标之间的联系。
为了解决这一问题,越来越多的研究者开始利用目标检测等方法提取智能代理视野中的高阶信息,试图利用高阶语义信息更好的指导机器人的运动。SP模型首先提出了利用图网络对于场景中物体相关的先验知识进行学习;MJOLNIR模型在SP模型的基础上将被检测到物体的位置和语义信息整合到图卷积网络中;ORG模型合理的利用物体视觉特征、语义特征和空间特征关系提高了物体特征运用的自适应性;CKR模型利用交叉模式知识推理将外部知识图谱信息应用到智能代理的导航中;HOZ模型从场景整体出发,提出了物体区域图,将场景整合成分层式的图结构。
如今基于高阶语义的物体导航仍在蓬勃发展,但是需要研究者们从实际问题出发,找到物体导航方法从数据集到现实世界的困难,真正的将物体导航方法应用到物理世界中。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于物体偏见修正与有向注意力图的物体导航方法。
本发明的目的可以通过以下技术方案来实现:
一种基于物体偏见修正与有向注意力图的物体导航方法,包括以下步骤:
S1、在物体导航过程中,机器人实时获取当前时刻的原始图像作为视觉输入;
S2、通过ResNet18提取视觉输入的全局图像特征It,并且通过Faster RCNN提取视觉输入的局部物体特征St
S3、以全局图像特征It作为查询,局部物体特征St作为键值,通过多头注意力分数生成模块得到自适应物体注意力图Cv
S4、将自适应物体注意力图Cv与固定的物体注意力图加权相加得到当前时刻的物体注意力权重Gt
S5、利用物体注意力权重Gt对局部物体特征St进行加权得到物体支路最终编码
Figure BDA0003593419970000021
S6、利用经过物体注意力权重加权后的物体语义表示D作为查询,全局的图像信息作为键值,通过多头注意力得到图像支路最终编码
Figure BDA0003593419970000022
S7、对图像、物体和过去动作三个支路进行能量重新分配再聚合得到特征表示Ht
S8、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率;
S9、加强检测到目标物体时输出停止动作的概率;
S10、机器人选择概率最大的动作对场景进行探索。
所述的步骤S2中,局部物体特征St由物体视觉特征
Figure BDA0003593419970000031
物体位置特征
Figure BDA0003593419970000032
物体置信度
Figure BDA0003593419970000033
和目标物体指示位
Figure BDA0003593419970000034
拼接而成。
所述的步骤S3具体包括以下步骤:
S31、设定置信度阈值,并通过置信度滤波将低于置信度阈值的物体特征置为0得到滤波后的物体特征
Figure BDA0003593419970000035
S32、通过独热编码和两层全连接层得到物体索引编码特征OI,对全局图像特征It进行全局平均池化后与目标索引编码OIp拼接得到包含目标物体信息的全局图像特征
Figure BDA0003593419970000036
则有:
Figure BDA0003593419970000037
其中,M为特征图中的像素数量,p表示目标物体,OIp为物体索引编码特征OI中目标物体p的索引编码,Concat表示将两个向量拼接成一个;
S33、以包含目标物体信息的全局图像特征
Figure BDA00035934199700000322
作为查询,滤波后的物体特征
Figure BDA0003593419970000039
作为键,利用多头注意力分数生成器得到自适应物体注意力图Gv,则有:
Figure BDA00035934199700000310
Figure BDA00035934199700000311
Figure BDA00035934199700000312
其中,NH和HD分别为多头注意力分数生成器的头数和隐藏维度,
Figure BDA00035934199700000313
Figure BDA00035934199700000314
均为可学习的维度映射参数,
Figure BDA00035934199700000315
Figure BDA00035934199700000316
分别将包含目标物体信息的全局图像特征
Figure BDA00035934199700000317
和滤波后的局部物体特征
Figure BDA00035934199700000318
映射到的同一维度HD,
Figure BDA00035934199700000319
将各个头计算出来的子图聚合为一个自适应的物体注意力图Gv
所述的步骤S4具体为:
定义一个可学习且固定大小的矩阵
Figure BDA00035934199700000320
表示固定的物体注意力图,根据寻找的物体p,从固定的物体注意力图中提取边权重
Figure BDA00035934199700000321
通过加权固定物体注意力图与自适应的物体注意力图得到无偏见的物体注意力权重Gt,则有:
Figure BDA0003593419970000041
其中,ωn与ωv均为可学习的权重。
所述的步骤S5具体为:
为平衡计算量与信息完整性使用两层带有ReLU非线性的全连接层对局部物体特征St进行降维得到降维后的物体特征St′,采用无偏见的物体注意力权重Gt对降维后的物体特征St′中每个物体q的特征进行加权得到物体支路最终编码
Figure BDA0003593419970000042
则有:
Figure BDA0003593419970000043
Figure BDA0003593419970000044
其中,N为物体总数,
Figure BDA0003593419970000045
为第q个物体的低维特征,
Figure BDA0003593419970000046
为第q个物体的无偏注意力权重。
所述的步骤S6具体包括以下步骤:
S61、利用无偏物体注意力权重Gt对物体索引编码特征OI进性加权聚合,得到加权后的物体语义表示D,则有:
Figure BDA0003593419970000047
其中,
Figure BDA00035934199700000413
表示指示函数,N为物体总数,OIq为物体索引编码特征OI中第q个物体的索引编码,置信度滤波
Figure BDA0003593419970000048
表示置信度小于一定阈值的物体的语义特征被置为0;
S62、将一维的像素索引编码PI引入到全局图像特征中,则有:
I′t=δ(δ(ItW1)W2)+PI
其中,I′t为拥有像素位置标识的全局图像特征,δ表示ReLU非线性激活函数,W1和W2为可学习的维度映射参数;
S63、利用加权后的物体语义表示D作为查询,拥有像素位置标识的全局图像特征I′t作为键值,通过多头注意力网络得到图像支路最终编码
Figure BDA0003593419970000049
所述的步骤S7具体为:
定义一个包含三个可学习参数的向量R={r1,r2,r3},将全局图像支路
Figure BDA00035934199700000410
局部物体支路
Figure BDA00035934199700000411
和过去动作支路PA通过向量R聚合为一个特征表示Ht,则有:
Figure BDA00035934199700000412
其中,Fpw表示逐点卷积。
所述的步骤S8具体为:
采用两层的全连接层对特征表示Ht进行精炼作为LSTM网络的输入,经过LSTM网络学习到机器人在探索环境过程中的时序关系,从而输出综合过去动作与当前环境的动作概率向量,所述的动作包括直走、左转、右转、抬头、低头和停止,若机器人输出停止动作,则表示机器人已经找到了物体并导航到了物体的位置。
所述的置信度滤波的阈值为0.6.
所述的步骤S9中,当机器人检测到目标物体时,使用目标检测置信度乘以固定系数再乘上概率向量中停止动作的概率,实现对停止动作触发的显式增强。
与现有技术相比,本发明具有以下优点:
一、本发明提出了一种有向物体注意力图表示,有效解决了智能代理在物体导航中出现的物体注意力偏见问题,并且让神经网络对物体之间的内在关系有了更加清晰的认识。
二、本发明以有向物体注意力图为基础,设计了全局图像支路和局部物体支路的交叉注意力,即无偏的图像注意力和无偏的物体注意力,这种交叉注意力方法增强了全局图像特征和物体特征注意力分配的合理性。
三、本发明设计了一种几乎不需要额外增加计算量的自适应能量分配支路特征聚合方法,该方法有效增强了网路对于不同支路的区分度,并改善了聚合后特征表示的数据分布。
四、本发明在AI2-Thor数据集上进行了实验,在SR、SPL、SAE指标上相比于最先进的方法分别提高了7.4%、8.1%和17.6%。
附图说明
图1为本发明方法的流程图。
图2为本发明方法的有向物体注意力图计算过程。
图3为本发明方法学习到的固定注意力图的邻接矩阵。
图4为本发明方法学习到的自适应注意力图的邻接矩阵。
图5为本发明方法训练过程中在训练集和测试集上成功率指标SR的变化,其中,图(5a)为训练集上成功率指标SR的变化,图(5b)为测试集上成功率指标SR的变化。
图6为本发明方法与过去方法在AI2-Thor模拟环境中指导智能代理寻找物体的路线对比。
图7为AI2-Thor数据集中的四个场景及每个场景中包含的物体。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于物体偏见修正与有向注意力图的物体导航方法,该方法利用物体有向注意力图解决机器人物体导航过程中的物体注意力偏见问题的方法,根据物体间无偏见的关系对物体注意力进行了合理的分配,并在AI2-Thor数据集的实验中获得了最先进的结果,具体包括以下步骤:
S1、提出了机器人在进行未知环境中纯视觉的物体导航时存在的物体注意力偏见问题;
步骤S1中物体注意力偏见问题由两方面原因导致:
(1)内源性原因:网络自身对具有更加丰富视觉特征对象的偏好。
(2)外源性原因,数据集中每个对象可以检测到的频率的差异性。
本方法主要从内源性因素入手,不改变数据集中的对象数量。
S2、利用ResNet18和Faster RCNN提取视觉输入的全局图像信息和局部物体信息;
步骤S2中,ResNet18从原始图像中提取出全局图像特征It,Faster RCNN从原始图像中提取出物体特征St,其由物体视觉特征
Figure BDA0003593419970000061
物体位置特征
Figure BDA0003593419970000062
物体置信度
Figure BDA0003593419970000063
和目标物体指示位
Figure BDA0003593419970000064
拼接而成。
S3、以全局图像信息作为查询,局部物体信息作为键值,通过多头注意力分数生成模块得到自适应物体注意力图;
步骤S3中,为了消除包含较多噪声的低置信度物体的干扰,使用置信度滤波将低于一定置信度阈值的物体特征置为0,滤波后的物体特征表示为
Figure BDA0003593419970000065
在完成滤波后,首先通过独热编码和两层的全连接层得到物体索引编码特征OI,因为寻找不同目标时需要有不同的注意力分配策略,所以对全局图像特征It进行全局平均池化后与目标索引编码OIp拼接得到拼接后的全局图像特征
Figure BDA0003593419970000066
则有:
Figure BDA0003593419970000067
其中,M表示特征图中的像素数量,p表示目标物体,OIp表示OI中第p个物体(目标物体)的索引编码,Concat表示将两个向量拼接成一个。
以拼接后的全局图像特征
Figure BDA0003593419970000071
作为查询,滤波后的物体特征
Figure BDA0003593419970000072
作为键,利用多头注意力分数生成器得到自适应物体注意力图Gv,则有:
Figure BDA0003593419970000073
Figure BDA0003593419970000074
Figure BDA0003593419970000075
其中,NH和HD分别表示多头注意力分数生成器的头数和隐藏维度,
Figure BDA0003593419970000076
Figure BDA0003593419970000077
分别将全局图像特征
Figure BDA0003593419970000078
和局部物体特征
Figure BDA0003593419970000079
映射到同一维度HD,
Figure BDA00035934199700000710
将各个头计算出来的子图聚合为一个自适应的物体注意力图Gv
S4、将自适应物体注意力图与固定的物体注意力图加权相加得到当前时刻的物体注意力权重;
步骤S4中,定义一个可学习的固定大小的矩阵
Figure BDA00035934199700000711
表示固定的物体注意力图,N表示物体总数,由于定义的物体注意力图是有向的,所以Gn是非对称的。
根据寻找的物体p,从固定物体注意力图中提取边权重
Figure BDA00035934199700000712
p是有向图中边的终点,通过加权相加固定物体注意力图与自适应的物体注意力图得到无偏见的物体注意力权重Gt,则有:
Figure BDA00035934199700000713
其中,ωn与ωv都是可学习的权重。
S5、利用物体注意力权重对物体局部信息进行加权得到物体支路最终编码;
步骤S5中,为了平衡计算量与信息完整性使用两层带有ReLU非线性的全连接层对局部物体特征St进行降维得到降维后的物体特征St′,利用步骤S4中计算出来的无偏见的物体注意力权重Gt对降维后的物体特征St′中每个物体q的特征进行加权,则有:
Figure BDA00035934199700000714
其中,
Figure BDA00035934199700000715
是第q个物体的低维特征,
Figure BDA00035934199700000716
是第q个物体的无偏注意力权重。
S6、利用经过物体注意力权重加权后的物体语义作为查询,全局的图像信息作为键值,通过多头注意力得到图像支路最终编码;
步骤S6中,首先利用无偏物体注意力权重Gt对物体索引编码特征OI进行加权聚合,得到加权后的物体语义表示D,则有:
Figure BDA0003593419970000081
其中,
Figure BDA00035934199700000810
指代指示函数,置信度滤波
Figure BDA0003593419970000082
表示置信度小于一定阈值的物体的语义特征会被置为0。
然后将一维的像素索引编码PI引入到全局图像特征中:
I′t=δ(δ(ItW1)W2)+PI
其中,δ指代ReLU非线性激活,W1和W2为可学习的维度映射参数,用以将全局图像特征降维,PI为全局图像特征的每个像素提供了位置标识。
最后利用加权后的物体语义表示D作为查询,拥有像素位置标识的全局图像特征I′t作为键值,通过多头注意力网络得到图像支路最终编码
Figure BDA0003593419970000083
则有:
Figure BDA0003593419970000084
Figure BDA0003593419970000085
Figure BDA0003593419970000086
S7、对图像、物体和过去动作三个支路进行能量重新分配再聚合;
步骤S7中,定义一个包含三个可学习参数的向量R={r1,r2,r3},全局图像支路
Figure BDA0003593419970000087
局部物体支路
Figure BDA0003593419970000088
过去动作支路PA这三个支路通过向量R聚合为一个特征表示Ht,则有:
Figure BDA0003593419970000089
其中,Fpw指代逐点卷积,降低特征维度。
S8、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率;
S9、利用停止动作提醒模块加强检测到目标物体时输出停止动作的概率;
步骤S9中,当智能代理检测到目标物体时,使用目标检测置信度乘以固定的系数再乘上概率向量中停止动作的概率,实现对停止动作触发的显式增强。
S10、机器人选择概率最大的动作对场景进行探索。
实施例
本实施例提供了一种基于物体偏见修正与有向注意力图的物体导航方法,该方法的框架示意图如图1所示,具体包括以下步骤:
S1、利用ResNet18和Faster RCNN提取视觉输入的全局图像信息和局部物体信息;
S2、以全局图像信息作为查询,局部物体信息作为键值,通过多头注意力分数生成模块得到自适应物体注意力图;
S3、将自适应物体注意力图与固定的物体注意力图加权相加得到当前时刻的物体注意力权重;
S4、利用物体注意力权重对物体局部信息进行加权得到物体支路最终编码;
S5、利用经过物体注意力权重加权后的物体索引编码特征作为查询,全局的图像信息作为键值,通过多头注意力得到图像支路最终编码;
S6、对图像、物体和过去动作三个支路进行能量重新分配再聚合;
S7、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率;
S8、利用停止动作提醒模块加强检测到目标物体时输出停止动作的概率。
S9、机器人选择概率最大的动作对场景进行探索。
在步骤S1,智能代理首先通过向前拍摄的摄像头读取当前场景的主视角图片,再将图片数据转换成在python中便于处理的numpy格式,为了输入用pytorch搭建的神经网络,再将numpy格式的图像数据转换成pytorch中的tensor格式。
在训练模型的时候,将场景中智能代理所处的所有可能状态时捕获到的主视角图片提出出来,并分别用预训练过的ResNet18和Faster RCNN提取全局图像信息和局部物体信息,将每个场景中的上述两种特征储存成HDF5格式文件,这样在训练时智能代理只需要读取HDF5文件获得当前状态的全局图像与局部物体特征,不需要智能代理不断的与环境交互从而耗费大量的时间。
在步骤S2,图2展示了计算物体注意力图的详细过程。物体特征需要经过一个置信度滤波剔除置信度较低的物体带来的噪声,而经过实验探究,置信度滤波的最佳阈值为0.6,全局图像特征在全局平均池化后需要与目标物体的索引编码拼接。这里使用拼接向量的方法而不是特征相加是因为图像特征的维度(512)和目标索引编码的维度(64)相差较大,所以使用拼接的方法能更好的利用特性信息。多头注意力分数生成模块本质上是计算每一个局部物体特征嵌入与全局图像特征嵌入的相似性,从而得到每个物体根据不同可视图片而变化的重要性权重。
在步骤S3,固定的物体注意力图是由可学习的N×N矩阵表示的,其在训练的过程中不断学习物体之间的本质关系,在测试使用时就不会改变。所以理论上,训练的场景越全面越真实,那么固定的物体注意力图就越合理,图3和图4分别可视化了固定的物体注意力图和自适应物体注意力图的邻接矩阵,可以发现固定的物体注意力图中自连接边的权重最大,即对目标物体的注意力最强,图4中的自适应物体注意力图的邻接矩阵每一列代表在寻找这类物体时随机抽取一帧时的自适应物体注意力。可以发现自适应物体注意力一般集中在一个物体上,这是因为每一时刻视野中物体相对于所有物体是十分稀疏的,这种稀疏性导致了注意力对于最重要物体的极致倾斜。但是由于使用的是固定注意力图与自适应注意力图加权平均的方式,而神经网络学习到的分配给固定注意力图的权重为0.96,分配给自适应注意力图的权重为0.04。所以自适应注意力的注意力集中现象并不会导致整体物体注意力的极端,反而会起到加强重要物体权重的良好效果。
在步骤S4,为了平衡网络后续的计算量和特征的信息丰富度,利用带有ReLU非线性的全连接层对局部物体特征进行了降维,从518维降低到了64维,再对每个物体特征乘以对应的物体注意力权重得到最终的物体特征输出。
在步骤S5,全局图像特征需要对每个像素添加位置编码,在本方法中运用的是1D位置编码方式,这是因为全局图像特征图的大小只有7×7,所以只使用1D编码也可以学习出二维的位置信息,所以没有必要使用2D或者相对位置编码了。物体语义信息在经过注意力分配后也需要通过置信度滤波去除噪声,这里选择的置信度阈值与步骤S2中的一样也为0.6。
在步骤S6,每一个支路都有一个可学习的参数对支路特征进行数据分布的调整,所有的支路以拼接的方式连接,注意在拼接成一个特征向量后还需要经过两层的全连接层对信息进行精炼,才能输入LSTM网络。
在步骤S7,精炼后特征经过LSTM网络会学习到智能代理在探索环境过程中的时序关系,从而输出综合了之前动作和环境的动作概率向量,动作一共有6种:直走、左转、右转、抬头、低头、停止,如果智能代理输出停止动作,则表示其认为已经找到了物体并导航到了物体的位置。
在步骤S8,由于此任务的目标是找到目标物体,所以当智能代理检测到视野中的目标物体时,会根据检测到目标物体的置信度增强结束动作的概率。
在步骤S9,机器人会采取动作概率向量中概率最大的动作进行下一步的场景探索。
本发明提出了一种有向物体注意力图方法有效解决了物体导航过程中的物体注意力偏见问题。并基于物体注意力图,提出了无偏的自适应物体注意力与自适应图像注意力这两个交叉注意力策略,他们让神经网络对于物体特征和图像特征注意力进行了合理的分配。不仅如此,还提出了自适应能量分配方法对支路特征的聚合进行了优化。在AI2-Thor数据集上进行了实验,图7展示了数据集中的场景和物体。图5中,可以看到我们的方法在强化学习训练过程中,在训练集和测试集上的成功率曲线都平稳收敛。图6展示了方法在AI2-Thor模拟环境中指导智能代理导航的实际效果。可以发现,旋转的方向和旋转变直走的时机对于导航的成功与否是十分重要的。而这两个决策主要由视野中包含多个物体的关键帧时,智能代理对于场景的理解决定。基于有向物体注意力图的方法能够为智能代理提供更加合理和无偏见的注意力分配,因此能够指导其在关键帧的时候做出正确的决策。本方法在SR、SPL和SAE指标方面比HOZ等先进方法提升了7.4%、8.1%和17.6%。无论是对方法效果的提升还是对未来研究的指导作用方面,本方法都有着独特的优势。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,包括以下步骤:
S1、在物体导航过程中,机器人实时获取当前时刻的原始图像作为视觉输入;
S2、通过ResNet18提取视觉输入的全局图像特征It,并且通过Faster RCNN提取视觉输入的局部物体特征St
S3、以全局图像特征It作为查询,局部物体特征St作为键值,通过多头注意力分数生成模块得到自适应物体注意力图Gv
S4、将自适应物体注意力图Gv与固定的物体注意力图加权相加得到当前时刻的物体注意力权重Gt
S5、利用物体注意力权重Gt对局部物体特征St进行加权得到物体支路最终编码
Figure FDA0003593419960000011
S6、利用经过物体注意力权重加权后的物体语义表示D作为查询,全局的图像信息作为键值,通过多头注意力得到图像支路最终编码
Figure FDA0003593419960000012
S7、对图像、物体和过去动作三个支路进行能量重新分配再聚合得到特征表示Ht
S8、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率;
S9、加强检测到目标物体时输出停止动作的概率;
S10、机器人选择概率最大的动作对场景进行探索。
2.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S2中,局部物体特征St由物体视觉特征
Figure FDA0003593419960000013
物体位置特征
Figure FDA0003593419960000014
物体置信度
Figure FDA0003593419960000015
和目标物体指示位
Figure FDA0003593419960000016
拼接而成。
3.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S3具体包括以下步骤:
S31、设定置信度阈值,并通过置信度滤波将低于置信度阈值的物体特征置为0得到滤波后的物体特征
Figure FDA0003593419960000017
S32、通过独热编码和两层全连接层得到物体索引编码特征OI,对全局图像特征It进行全局平均池化后与目标索引编码OIp拼接得到包含目标物体信息的全局图像特征
Figure FDA0003593419960000021
则有:
Figure FDA0003593419960000022
其中,M为特征图中的像素数量,p表示目标物体,OIp为物体索引编码特征OI中目标物体p的索引编码,Concat表示将两个向量拼接成一个;
S33、以包含目标物体信息的全局图像特征
Figure FDA0003593419960000023
作为查询,滤波后的物体特征
Figure FDA0003593419960000024
作为键,利用多头注意力分数生成器得到自适应物体注意力图Gv,则有:
Figure FDA0003593419960000025
Figure FDA0003593419960000026
Figure FDA0003593419960000027
其中,NH和HD分别为多头注意力分数生成器的头数和隐藏维度,
Figure FDA0003593419960000028
Figure FDA0003593419960000029
均为可学习的维度映射参数,
Figure FDA00035934199600000210
Figure FDA00035934199600000211
分别将包含目标物体信息的全局图像特征
Figure FDA00035934199600000212
和滤波后的局部物体特征
Figure FDA00035934199600000213
映射到的同一维度HD,
Figure FDA00035934199600000214
将各个头计算出来的子图聚合为一个自适应的物体注意力图Gv
4.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S4具体为:
定义一个可学习且固定大小的矩阵
Figure FDA00035934199600000215
表示固定的物体注意力图,根据寻找的物体p,从固定的物体注意力图中提取边权重
Figure FDA00035934199600000216
通过加权固定物体注意力图与自适应的物体注意力图得到无偏见的物体注意力权重Gt,则有:
Figure FDA00035934199600000222
其中,ωn与ωv均为可学习的权重。
5.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S5具体为:
为平衡计算量与信息完整性使用两层带有ReLU非线性的全连接层对局部物体特征St进行降维得到降维后的物体特征St′,采用无偏见的物体注意力权重Gt对降维后的物体特征St′中每个物体q的特征进行加权得到物体支路最终编码
Figure FDA00035934199600000217
则有:
Figure FDA00035934199600000218
Figure FDA00035934199600000219
其中,N为物体总数,
Figure FDA00035934199600000220
为第q个物体的低维特征,
Figure FDA00035934199600000221
为第q个物体的无偏注意力权重。
6.根据权利要求5所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S6具体包括以下步骤:
S61、利用无偏物体注意力权重Gt对物体索引编码特征OI进性加权聚合,得到加权后的物体语义表示D,则有:
Figure FDA0003593419960000031
其中,
Figure FDA0003593419960000032
表示指示函数,N为物体总数,OIq为物体索引编码特征OI中第q个物体的索引编码,置信度滤波
Figure FDA0003593419960000033
表示置信度小于一定阈值的物体的语义特征被置为0;
S62、将一维的像素索引编码PI引入到全局图像特征中,则有:
I′t=δ(δ(ItW1)W2)+PI
其中,I′t为拥有像素位置标识的全局图像特征,δ表示ReLU非线性激活函数,W1和W2为可学习的维度映射参数;
S63、利用加权后的物体语义表示D作为查询,拥有像素位置标识的全局图像特征I′t作为键值,通过多头注意力网络得到图像支路最终编码
Figure FDA0003593419960000034
7.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S7具体为:
定义一个包含三个可学习参数的向量R={r1,r2,r3},将全局图像支路
Figure FDA0003593419960000035
局部物体支路
Figure FDA0003593419960000036
和过去动作支路PA通过向量R聚合为一个特征表示Ht,则有:
Figure FDA0003593419960000037
其中,Fpw表示逐点卷积。
8.根据权利要求7所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S8具体为:
采用两层的全连接层对特征表示Ht进行精炼作为LSTM网络的输入,经过LSTM网络学习到机器人在探索环境过程中的时序关系,从而输出综合过去动作与当前环境的动作概率向量,所述的动作包括直走、左转、右转、抬头、低头和停止,若机器人输出停止动作,则表示机器人已经找到了物体并导航到了物体的位置。
9.根据权利要求3或6所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的置信度滤波的阈值为0.6。
10.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S9中,当机器人检测到目标物体时,使用目标检测置信度乘以固定系数再乘上概率向量中停止动作的概率,实现对停止动作触发的显式增强。
CN202210385355.1A 2022-04-13 2022-04-13 一种基于物体偏见修正与有向注意力图的物体导航方法 Pending CN114910071A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210385355.1A CN114910071A (zh) 2022-04-13 2022-04-13 一种基于物体偏见修正与有向注意力图的物体导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210385355.1A CN114910071A (zh) 2022-04-13 2022-04-13 一种基于物体偏见修正与有向注意力图的物体导航方法

Publications (1)

Publication Number Publication Date
CN114910071A true CN114910071A (zh) 2022-08-16

Family

ID=82765011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210385355.1A Pending CN114910071A (zh) 2022-04-13 2022-04-13 一种基于物体偏见修正与有向注意力图的物体导航方法

Country Status (1)

Country Link
CN (1) CN114910071A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984966A (zh) * 2023-01-03 2023-04-18 西南交通大学 一种基于特征精炼与多视图的人物物交互动作检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984966A (zh) * 2023-01-03 2023-04-18 西南交通大学 一种基于特征精炼与多视图的人物物交互动作检测方法
CN115984966B (zh) * 2023-01-03 2023-10-13 西南交通大学 一种基于特征精炼与多视图的人物物交互动作检测方法

Similar Documents

Publication Publication Date Title
CN110276765B (zh) 基于多任务学习深度神经网络的图像全景分割方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
Wang et al. Actionness estimation using hybrid fully convolutional networks
CN107403426B (zh) 一种目标物体检测方法及设备
KR20190113119A (ko) 합성곱 신경망을 위한 주의집중 값 계산 방법
CN110765854B (zh) 一种视频动作识别方法
CN112668366B (zh) 图像识别方法、装置、计算机可读存储介质及芯片
CN107909008A (zh) 基于多通道卷积神经网络和粒子滤波的视频目标跟踪方法
Mordan et al. Detecting 32 pedestrian attributes for autonomous vehicles
CN112121419B (zh) 虚拟对象控制方法、装置、电子设备以及存储介质
CN111462191A (zh) 一种基于深度学习的非局部滤波器无监督光流估计方法
Jiang et al. An efficient attention module for 3d convolutional neural networks in action recognition
Farhadi et al. TKD: Temporal knowledge distillation for active perception
CN113705384A (zh) 一种考虑局部时空特性和全局时序线索的面部表情识别方法
CN114910071A (zh) 一种基于物体偏见修正与有向注意力图的物体导航方法
CN118397465A (zh) 一种基于多维特征聚合增强与分发机制的遥感小目标检测方法
CN118097228A (zh) 基于多教师辅助实例自适应dnn的移动平台多目标分类方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法
CN117437467A (zh) 模型训练方法、装置、电子设备及存储介质
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN115100740B (zh) 一种人体动作识别和意图理解方法、终端设备及存储介质
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN116597419A (zh) 一种基于参数化互近邻的车辆限高场景识别方法
CN114841887B (zh) 一种基于多层次差异学习的图像恢复质量评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination